
Microsoft представила второе поколение собственного ИИ‑чипа, рассчитанного на более эффективный запуск сервисов компании и на предоставление альтернативы аппаратным решениям Nvidia. Эта инициатива направлена на снижение затрат и ускорение вычислений при работе с моделями искусственного интеллекта.
Maia 200 — новый высокопроизводительный ускоритель для задач инференса ИИ. Чип разработан специально для ускорения генерации токенов и оптимизации работы развернутых моделей.
По информации Microsoft, Maia 200 создан на 3‑нанометровом техпроцессе Taiwan Semiconductor Manufacturing Co. Архитектура чипа ориентирована на существенное улучшение показателей стоимости и скорости вывода моделей.
В состав Maia 200 входят тензорные ядра с поддержкой форматов FP8 и FP4, 216 ГБ памяти HBM3e с пропускной способностью 7 Тб/с и 272 МБ встроенной SRAM. Эти характеристики делают его самым быстрым и энергоэффективным собственным кремнием Microsoft на текущий момент.
В каждом чипе более 140 миллиардов транзисторов. При 4‑битной точности Maia 200 обеспечивает свыше 10 петафлопс, а при 8‑битной — примерно 5 петафлопс.
Руководитель облачных и ИИ‑направлений Microsoft Скотт Гатри заявил, что Maia 200 — наиболее производительный кремний от любого гипермасштабного поставщика. По его оценке, чип показывает трёхкратный выигрыш в FP4 по сравнению с третьим поколением Amazon Trainium и превосходит по FP8‑производительности седьмое поколение Google TPU.
Microsoft открывает возможность предварительного доступа к набору средств разработки для Maia 200 для разработчиков, учёных, лабораторий ИИ и участников открытых проектов. Заявки на участие будут рассматриваться в рамках предварительного превью.
Первые экземпляры Maia 200 уже развернуты в центральном регионе дата‑центров Microsoft в штате Айова. В ближайшее время ожидается развёртывание в другом регионе рядом с Финиксом, штат Аризона.
Команда Microsoft Superintelligence планирует использовать Maia 200 для генерации синтетических данных и обучения с подкреплением с целью улучшения следующего поколения внутренних моделей. Эти подходы применяются для повышения качества и устойчивости алгоритмов.
Чипы также будут задействованы для работы корпоративного помощника Copilot и для обслуживания крупных моделей ИИ, включая GPT‑5.2. Такое использование направлено на ускорение отклика и снижение затрат при масштабном применении моделей.
По оценке Microsoft, система Maia 200 является самым эффективным решением для инференса, развернутым компанией, и обеспечивает примерно на 30% лучшее соотношение производительности к стоимости по сравнению с аппаратурой последнего поколения в их парке. Это улучшение должно снизить эксплуатационные расходы при масштабных развертках ИИ.


Комментариев