
Генеральный директор NVIDIA Дженсен Хуанг, по сообщениям, заключил с Groq соглашение, которое неожиданно расширяет доступ компании к специализированному оборудованию для ИИ. Эта договорённость может сыграть ключевую роль в укреплении позиций NVIDIA в задачах инференса.
Для понимания значения сделки важно рассмотреть два направления: структуру самой сделки и связанную с ней аппаратную архитектуру.
Сначала появились сообщения о покупке Groq за примерно 20 миллиардов долларов, но затем Groq объявила о подписании неэксклюзивного лицензионного соглашения, предоставляющего NVIDIA доступ к технологиям инференса. По словам представителей, GroqCloud продолжит работу в сокращённой форме, а компания не будет приобретаться целиком.
В результате NVIDIA получила доступ к кадрам и интеллектуальной собственности Groq без официального оформления слияния, что позволило избежать стандартных процедур уведомления антимонопольных регуляторов и оперативно завершить транзакцию. Такая схема сравнивается с приёмами, которые ранее использовали другие крупные игроки отрасли.
Техническая часть сделки представляет особый интерес: у Groq имеется аппаратная экосистема, ориентированная именно на инференс, и она опирается на архитектурные решения, отличные от традиционных GPU. В отрасли растёт спрос на быстрое и предсказуемое выполнение запросов, где ключевым показателем становится задержка отклика.
Критическая фаза инференса — генерация токенов в трансформерах, или decode — требует детерминированного и низколатентного исполнения. Вместо использования высокоскоростной HBM-памяти Groq делает ставку на размещение весов в on-die SRAM, что сокращает задержки и снижает энергопотребление при обработке по токенам.
По опубликованным данным, решения Groq оборудованы порядка 230 МБ SRAM на кристалле и обеспечивают внутреннюю пропускную способность на уровне десятков терабайт в секунду. Такая организация памяти позволяет достигать значительно меньшей латентности по сравнению с системами, зависящими от DRAM и контроллеров HBM.
Ещё одной важной особенностью является ориентированность на детерминированное исполнение: компиляция и планирование операций во время сборки обеспечивают отсутствие непредсказуемых задержек между ядрами. Это улучшает заполнение конвейеров и даёт более стабильную производительность на каждом токене.
При этом LPUs (Language Processing Units) остаются специализированной технологией и ещё не стали общепринятой платформой. Интеграция таких процессоров в rack-scale решения вместе с GPU — при которой GPU обрабатывают предзаполнение и длинный контекст, а LPUs — фазу генерации — могла бы обеспечить полный стек для инференса у крупных операторов.
В целом соглашение с Groq усиливает портфель NVIDIA в направлении инференса: к компании переходят кадры и технологии, позволяющие повысить предсказуемость и энергоэффективность генерации токенов. Это меняет картину доступных архитектур и может ускорить принятие специализированных решений для задач реального времени.


Комментариев