
Почему команды разработчиков по-прежнему обучают и хранят несколько больших языковых моделей для разных задач развертывания, если одна «эластичная» модель может выдавать несколько размеров без дополнительных затрат на обучение? Команда NVIDIA сократила обычную иерархию «семейств моделей» до одной процедуры обучения и выпустила Nemotron-Elastic-12B — модель рассуждения с 12 миллиардами параметров, внутри которой вложены варианты на 9B и 6B, получаемые из одного эластичного чекпоинта без отдельных раундов дистилляции для каждого размера.
В производстве обычно требуются разные размеры моделей: крупная для серверных задач, средняя для сильных периферийных GPU и маленькая для жёстких ограничений по задержке или энергопотреблению. Стандартный подход предполагает отдельное обучение или сжатие каждой версии, поэтому затраты по токенам и хранилищу чекпоинтов растут с числом вариантов.
Nemotron Elastic использует иной путь. Исходной точкой стала модель Nemotron Nano V2 12B: команда обучила эластичную гибридную сеть с Mamba Attention, которая экспонирует несколько вложенных подмоделей. Один выпущенный чекпоинт Nemotron-Elastic-12B можно «расщепить» на варианты 9B и 6B с помощью прилагаемого скрипта для нарезки, без дополнительной оптимизации.
Все варианты разделяют веса и метаданные маршрутизации, поэтому расходы на обучение и память при развертывании привязаны к самому крупному варианту, а не к числу размеров в семействе.
По архитектуре Nemotron Elastic представляет собой гибрид Mamba-2 и Transformer. Базовая часть следует дизайну Nemotron-H: большинство слоёв — блоки состояния последовательности Mamba-2 и MLP, тогда как небольшая часть внимания сохраняет глобальное рецептивное поле.
Эластичность реализована с помощью масок, которые динамически контролируют структуру модели. Через бинарные маски можно уменьшать ширину: эмбеддинги, количество каналов, головы и каналы Mamba, головы внимания и промежуточный размер FFN.
Глубина модели также регулируется: слои могут исключаться согласно выученному порядку важности, при этом сохраняются остаточные пути для прохождения сигнала. Маршрутизатор выдаёт дискретные конфигурации под заданный бюджет, которые преобразуются в маски с помощью Gumbel Softmax и применяются к эмбеддингам, проекциям Mamba, проекциям внимания и матрицам FFN.
Исследователи добавили несколько техник, чтобы сохранить корректность структуры SSM: групповую эластичность SSM, учитывающую группировку голов и каналов Mamba; гетерогенную эластичность MLP, позволяющую разным слоям иметь разные промежуточные размеры; и нормализованную MSE-оценку важности слоёв для выбора при сокращении глубины.
Меньшие варианты формируются как префиксные выборки в ранжированных списках компонентов, поэтому модели на 6B и 9B являются истинно вложенными подсетями родительской 12B модели.
Обучение ведётся с замороженным учителем: в качестве учителя используется исходная Nemotron-Nano-V2-12B, а эластичный «студент» оптимизируется совместно для трёх бюджетов (6B, 9B, 12B) с использованием дистилляции знаний и задачи языкового моделирования.
Процесс обучения состоит из двух этапов. Этап 1 — короткий контекст: длина последовательности 8192, размер батча 1536, примерно 65 миллиардов токенов с равномерной выборкой по трём бюджетам. Этап 2 — расширенный контекст: длина 49152, размер батча 512, около 45 миллиардов токенов с неравномерной выборкой, где веса 0.5, 0.3 и 0.2 отдаются за 12B, 9B и 6B соответственно, чтобы избежать деградации крупного варианта.
Второй этап оказался важным для задач рассуждения: после расширенного контекстного обучения модель 6B улучшилась на задачах AIME 2025 с 56,88 до 68,13 балла, что соответствует относительному приросту 19,8 %. Вариант 9B показал прирост около 9,7 %, а 12B — около 4,0 %.
Nemotron Elastic оценивали на бенчмарках с сильной нагрузкой на рассуждение: MATH 500, AIME 2024, AIME 2025, GPQA, LiveCodeBench v5 и MMLU Pro. 12B эластичная модель в среднем сопоставима с базовой NanoV2-12B (77,41 против 77,38), 9B следует близко за NanoV2-9B (75,95 против 75,99), а 6B достигает 70,61, немного уступая Qwen3-8B с 72,68, но оставаясь сильной для своего числа параметров с учётом отсутствия отдельного обучения.
Подход также существенно сокращает потребление токенов и память. Сравнение бюджетов показывает: предварительное обучение NanoV2 для 6B и 9B требует порядка 40 трлн токенов; сжатие NanoV2 через Minitron SSM включает примерно 480 млрд исследовательских и 270 млрд финальных токенов (в сумме ~750 млрд); Nemotron Elastic достигает нужных вариантов одним эластичным раундом за ~110 млрд токенов.
Команда сообщает, что это даёт примерно в 360 раз меньше затрат по сравнению с обучением двух дополнительных моделей с нуля и около в 7 раз меньше по сравнению с baseline-компрессией.
Память при развертывании также снижается: хранение эластичных вариантов 6B, 9B и 12B вместе требует около 24 ГБ BF16 весов, тогда как хранение NanoV2 9B и 12B отдельно занимает примерно 42 ГБ. Это соответствует снижению примерно на 43 % при добавлении опции 6B.
В целом Nemotron-Elastic-12B демонстрирует практический путь к удешевлению создания и эксплуатации семейств моделей рассуждения. Один эластичный чекпоинт даёт варианты 6B, 9B и 12B, сочетая гибридную архитектуру Mamba-2 и Transformer, выученный маршрутизатор и структурные маски, при этом снижая счёт токенов и упрощая требования к памяти при развертывании.


Комментариев