
Команда исследователей NVIDIA AI представила NitroGen — открытую фаундейшн‑модель vision‑action для универсальных игровых агентов, способную обучаться играть в коммерческие игры напрямую по пикселям и действиям геймпада, используя крупномасштабные видеозаписи игрового процесса из интернета.
Пайплайн NitroGen начинается с публичных видео с наложениями контроллера, например визуализацией геймпада в углу экрана. Исследователи собрали 71 000 часов исходного видео и после фильтрации по плотности действий отобрали примерно 55% данных — около 40 000 часов, охватывающих более 1 000 игр.
Откорректированный датасет включает 38 739 видео от 818 авторов. В нём 846 игр имеют свыше часа данных, 91 игра — более 100 часов, а 15 игр собрали свыше 1 000 часов каждая.
По жанрам 34.9% часов приходится на action‑RPG, 18.4% — на платформеры, 9.2% — на action‑adventure, а оставшиеся часы распределены между спортом, roguelike, гонками и другими жанрами. Такое покрытие обеспечивает широкий набор игровых механик для обучения.
Для восстановления покадровых действий из стримов NitroGen использует трёхэтапный конвейер извлечения действий. Первый этап — локализация оверлея контроллера с помощью примерно 300 шаблонов и сопоставления признаков SIFT и XFeat на 25 выборочных кадрах; при наличии не менее 20 инлайеров оценивается аффинное преобразование и выполняется кроп области контроллера.
Второй этап — сегментация и классификация с использованием гибридной модели на базе SegFormer. Модель принимает две последовательные кадры, объединённые по пространству, и предсказывает положение стиков на сетке 11×11 и бинарные состояния кнопок; для обучения использовали 8 миллионов синтетических изображений с различными шаблонами контроллеров, прозрачностью, размерами и степенью сжатия, оптимизация — AdamW (LR 0.0001, weight decay 0.1, batch 256).
Третий этап уточняет координаты стиков и отбрасывает фрагменты с низкой активностью. Координаты нормализуются в диапазон от −1.0 до 1.0 с использованием 99‑го перцентиля для снижения влияния выбросов, а сегменты, где менее 50% временных шагов содержат ненулевые действия, удаляются, чтобы предотвратить переобучение на «пустые» действия.
Сравнение с эталонными логами контроллеров показывает, что предсказания стиков достигают среднего R² ≈ 0.84, а точность предсказания кнопок по кадрам — около 0.96 для основных семейств контроллеров, например Xbox и PlayStation. Это подтверждает достаточную точность автоматических аннотаций для масштабного обучения по поведению.
NitroGen включает универсальный симулятор, который оборачивает коммерческие Windows‑игры в интерфейс, совместимый с Gymnasium. Обёртка перехватывает системные часы игры для управления временем симуляции и поддерживает покадровое взаимодействие без изменения кода игры при условии, что игра использует системный таймер для физики и взаимодействий.
Наблюдения в бенчмарке — одиночные RGB‑кадры. Действия описываются объединённым пространством контроллера: 16‑мерный бинарный вектор для кнопок (четыре кнопки крестовины, четыре лицевые кнопки, два плечевых, два триггера, две кнопки стика, старт и бэк) и 4‑мерный непрерывный вектор для двух стиков (левый и правый x,y); такая унификация позволяет напрямую переносить одну политику между разными играми.
Тестовый набор покрывает 10 коммерческих игр и 30 задач. Среди игр пять двухмерных (три сайд‑скроллера и два топ‑даун roguelike) и пять трёхмерных (две игры с открытым миром, две боевые action‑RPG и один спортивный проект), а задачи распределены по 11 боевым, 10 навигационным и 9 специфичным игровым целям.
Фаундейшн‑политика NitroGen следует архитектурной схеме GR00T N1 для воплощённых агентов, при которой убраны языковой и стейт‑энкодеры, оставлен визуальный энкодер и один action‑хед. На вход подаётся один RGB‑кадр разрешением 256×256, который кодируется SigLIP‑2 визуальным трансформером в 256 токенов изображения.
Далее diffusion‑трансформер DiT генерирует фрагменты будущих действий длиной 16 шагов. В обучении зашумлённые фрагменты действий встраиваются MLP в action‑токены, проходят через стек DiT‑блоков с self‑attention и cross‑attention к визуальным токенам и декодируются в непрерывные векторы действий; цель обучения — conditional flow matching с 16 шагами денойзинга.
Релизный чекпойнт содержит примерно 4.93×10^8 параметров. В описании модели выход представлен как тензор размером 21×16, где 17 измерений соответствуют бинарным состояниям кнопок, а 4 измерения хранят два двухмерных вектора стиков для 16 будущих временных шагов.
NitroGen обучали исключительно методом крупномасштабного клонирования поведения по интернет‑видео, без использования усиленного обучения и ручного проектирования вознаграждений. В качестве аугментаций применялись случайные изменения яркости, контраста, насыщенности и тона, небольшие повороты и случайные кропы; обучение велось с AdamW (weight decay 0.001), планом обучения с warmup и стабильной фазой при LR 0.0001 и экспоненциальным скользящим средним весов (decay 0.9999).
После предобучения модель NitroGen 500M демонстрирует нетривиальные уровни завершения задач в zero‑shot режиме по всем играм бенчмарка. Средние показатели завершения находятся примерно в диапазоне 45–60% для боевых, навигационных и специфичных задач в 2D и 3D играх, несмотря на шум в веб‑супервизии.
Для оценки переносимости исследователи удерживали одну игру, предобучали на оставшихся данных и затем дообучали на отложенной игре при фиксированном бюджете данных и вычислений. На изометрическом roguelike дообучение с инициализацией от NitroGen даёт около 10% относительного улучшения по сравнению с обучением с нуля, на трёхмерной action‑RPG — в среднем около 25%, а для некоторых боевых задач в условиях малого объёма данных (30 часов) относительный выигрыш достигает 52%.
NitroGen — это универсальная vision‑action фаундейшн‑модель для игр, которая сопоставляет 256×256 RGB‑кадры напрямую со стандартизированными действиями геймпада и обучается исключительно методом поведенческого клонирования по интернет‑видео. Модель предназначена для работы с коммерческими играми без ручного проектирования вознаграждений.
Датасет крупномасштабный и автоматически аннотирован из наложений контроллера: в фильтрованном наборе использовано примерно 40 000 часов игрового процесса из 38 739 видео более чем 1 000 игр, а покадровые действия извлекаются с помощью SegFormer‑базированного пайплайна. Автоматизация позволяет масштабировать аннотацию без ручной разметки.
Унифицированное пространство действий даёт возможность переноса поведения между играми: представление включает бинарные кнопки и непрерывные векторы стиков, что делает одну политику применимой к множеству коммерческих Windows‑проектов через универсальный симулятор. Это упрощает перенос и оценку агента на разных титулах.
Политика основана на diffusion‑трансформере и обучается методом conditional flow matching на фрагментах действий; релизная модель содержит порядка 4.93×10^8 параметров и использует SigLIP‑2 для визуальной кодировки. Такой подход обеспечивает устойчивое управление при обучении на шумных веб‑данных.
Предобучение на NitroGen улучшает результаты при дообучении на новых играх: в экспериментах наблюдались средние относительные улучшения порядка 10–25% и до 52% в режимах с ограниченным объёмом данных. Эффект наиболее заметен в боевых задачах при малом количестве тренировочных часов.
![Kakao's AI language model 'Kanana' overview [Photo = Kakao]](https://pautinaai.com/wp-content/uploads/2025/12/model-kanana-ot-kakao-okazalas-bezopasnee-ryada-zarubezhnyh-analogov-150x150.png)

Комментариев