Как серверы NVIDIA для ИИ обеспечили рост эффективности

Как серверы NVIDIA для ИИ обеспечили рост эффективности


98
20 поделились, 98 баллы

Новая серверная архитектура NVIDIA обеспечила одно из заметнейших ускорений в этом году, позволив крупным китайским моделям от DeepSeek и Moonshot AI повысить эффективность примерно в десять раз. Причина улучшения — не только более быстрые процессоры, но и пересмотренная компоновка сервера, ориентированная на потребности моделей типа Mixture of Experts (MoE).

Для DeepSeek и Moonshot рывок произошёл в критический момент: их модели растут по размеру и сложности, а затраты на инференс стали существенным ограничением. Новая серверная платформа ориентирована на снижение этих расходов за счёт интеграции множества ускорителей и уменьшения узких мест при маршрутизации экспертов.

Ключевой элемент дизайна — плотная компоновка из 72 ускорителей, соединённых высокоскоростными линиями передачи данных. Такое построение минимизирует задержки между крохотными специализированными подсетями модели и сокращает время переключения между «экспертами» во время работы.

Модели типа Mixture of Experts работают путём выбора специализированных подсетей для отдельных токенов или задач. Это даёт высокий теоретический выигрыш в эффективности, но реализуется только при очень низких задержках передачи данных между чипами, чего традиционные серверы часто не обеспечивают.

После развёртывания на новой аппаратной платформе DeepSeek и Moonshot зафиксировали более быстрые ответы, возросшую пропускную способность по токенам и заметное снижение стоимости запроса. Эти улучшения упрощают поддержку большого числа пользователей и помогают удерживать операционные расходы под контролем.

Технически прирост эффективности обеспечен тремя инженерными решениями: уменьшением расстояния между ускорителями за счёт плотного размещения, использованием высокоскоростной коммутационной подсистемы для обмена данными без узких мест и оптимизацией пропускной способности памяти и кэширования, что сокращает повторные обращения к данным.

Вместе эти изменения приближают MoE-модели к их теоретической скорости. Для разработчиков это означает возможность запускать более крупные модели или обрабатывать больший трафик без пропорционального увеличения числа серверов. Для пользователей это выражается в более быстрых и стабильных ответах при высокой нагрузке.

Результаты имеют более широкий смысл для глобальной гонки за аппаратное обеспечение для ИИ. Китайские компании стремятся расширять способности при ограничениях в поставках, и такие улучшения помогают сокращать разрыв с американскими конкурентами, подчёркивая влияние аппаратных решений на национальный прогресс в области ИИ.

Одновременно это усиливает конкуренцию на рынке серверов: AMD и Cerebras готовят свои поколения систем, облачные провайдеры ищут оборудование с низким энергопотреблением для крупных моделей, а NVIDIA позиционирует свою платформу как фундамент для будущего, где MoE-архитектуры могут доминировать. Если ранние данные верны, следующая волна развития ИИ будет определяться не только моделями, но и дизайном серверов, оптимизированных под эти модели.


Понравилось? Поделитесь с друзьями!

98
20 поделились, 98 баллы

Какова ваша реакция?

Чего? Чего?
6
Чего?
Плачу Плачу
3
Плачу
Прикол Прикол
2
Прикол
Ого Ого
1
Ого
Злой Злой
10
Злой
Ржака Ржака
9
Ржака
Ух, ты! Ух, ты!
8
Ух, ты!
Ужас Ужас
6
Ужас
Супер Супер
3
Супер
Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.

Комментариев

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Выберите формат
Пост
Форматированный текст с вставками и визуальными элементами
Опрос
Голосование для принятия решений или определения мнений
Изображение
Фото или GIF
Видео
Вставки с YouTube, Vimeo или Vine
Аудио
Вставки с SoundCloud или Mixcloud
Мем
Загружайте свои изображения для создания собственных мемов
Send this to a friend