3 месяца назад 3 месяца назад

NVIDIA AI представила TiDAR гибридную диффузионно-авторегрессионную модель для быстрого вывода LLM

Опубликовано: Admin 3 месяца назад3 месяца назад

182Просмотра

Исследователи NVIDIA представляют TiDAR — гибридную последовательную архитектуру языка, которая комбинирует диффузионное черновое поколение токенов с их автогрессивной верификацией в одном прогоне сети. Цель разработки — достичь качества автогрессивных моделей при значительном росте пропускной способности за счёт использования «свободных» слотов токенов на современных GPU.

Ключевая системная мотивация связана с тем, что автогрессивные трансформеры при реалистичных размерах батча обычно ограничены памятью: основное время уходит на загрузку весов и KV-кэша, а не на вычисления. В таких условиях добавление дополнительных токенов в последовательность почти не увеличивает латентность, поскольку параметры и кэш повторно используются.

Диффузионные языковые модели уже используют этот эффект: при заданном префиксе они могут добавить несколько замаскированных позиций и параллельно предсказать множество токенов за один шаг денойзинга. Такие дополнительные позиции авторы называют «свободными слотами», поскольку профилирование показывает, что отправка большего числа токенов в этом режиме почти не меняет время прямого прохода.

Однако у диффузионных LLM остаётся проблема качества. При одновременной генерации многих токенов модель обычно берёт каждый токен независимо от маргинального распределения при зашумлённом контексте, что ухудшает последовательную когерентность и фактическую точность. Наилучшие результаты по качеству часто достигаются при декодировании одного токена за шаг, что сводит на нет потенциальное преимущество по скорости.

Архитектура TiDAR спроектирована так, чтобы сохранить вычислительную эффективность диффузии и одновременно вернуть качество автогрессионного декодирования, используя единую основу и стандартную инфраструктуру трансформера. Модель делит последовательность на три логические секции в каждом шаге генерации: префикс принятых токенов, токены, сгенерированные на предыдущем шаге, и маскированные позиции для предварительного чернового предложения следующих токенов.

По структуре внимания префикс обрабатывается каскадно (causal attention), что поддерживает факторизацию «следующий токен» как в обычном автогрессивном трансформере. Секции чернового предложения и масок внутри блока имеют двунаправленное внимание, что позволяет делать маргинальные предсказания по множеству позиций параллельно. Такое расположение является модификацией Block Diffusion: только блок декодирования двунаправленный, остальная часть последовательности остаётся причинно-ограниченной.

Чтобы обеспечить оба режима работы в одной модели, при обучении TiDAR увеличивает длину последовательности вдвое: исходный ввод занимает причинную часть, а коррумпированная копия — диффузионную. В причинной части метки сдвинуты на один токен для задачи предсказания следующего токена, а в диффузионной части метки выровнены по позициям входа.

Важной деталью является стратегия полного маскирования: все токены в диффузионной секции заменяются специальным токеном-маской вместо выборочного повреждения. Это делает функцию потерь диффузии плотной, выравнивает число членов потерь для диффузионной и автогрессивной частей по длине последовательности и упрощает балансировку двух потерь одним множителем; в большинстве экспериментов этот множитель установлен равным единице.

Процесс генерации формулируется как самоспекулятивный и выполняется за один вызов функции сети на шаг. На первом шаге модель кодирует префикс каскадно и делает один шаг диффузии по маскированным позициям, получая блок черновых токенов.

На последующих шагах каждый прямой проход одновременно выполняет две операции: верификацию черновых токенов с помощью автогрессивных логитов по расширенному префиксу с правилом отбраковки, схожим со спекулятивным декодированием, и предварительное черновое предложение следующего блока через диффузию, условно на всех возможных вариантах принятия текущего шага. Принятые токены добавляются в префикс и сохраняются в KV-кэше, отклонённые — отбрасываются, а их записи удаляются из кэша.

Черновое предложение и верификация используют одну и ту же основу и маску внимания, поэтому диффузионные вычисления занимают свободные токен-слоты в том же проходе. Модель поддерживает два режима семплинга — с большим доверием к автогрессивным предсказаниям или к диффузионным — и в экспериментах для варианта 8B наблюдали пользу от доверия диффузии, особенно на математических бенчмарках, при сохранении автогрессивного качества через отбраковку.

С точки зрения реализации, в TiDAR макет внимания и число токенов на шаг фиксированы. Модель прединициализирует блоковую маску внимания и повторно использует её срезы между шагами декодирования с помощью Flex Attention. Поддерживается точный KV-кэш: записи для принятых токенов не пересчитываются, а дополнительных гиперпараметров времени вывода не вводится.

TiDAR создаётся через непрерывное предварительное обучениe от базовых моделей Qwen2.5 1.5B и Qwen3 4B и 8B. Вариант 1.5B обучался на 50 миллиардах токенов с размерами блоков 4, 8 и 16; вариант 8B обучался на 150 миллиардах токенов с блоком 16. В экспериментах использовались максимальная длина последовательности 4096, косинусная схема обучения, распределённый Adam, формат BF16 и модифицированный фреймворк Megatron LM с Torchtitan на GPU NVIDIA H100.

Оценка качества проводилась на задачах для кодирования и генерации кода (HumanEval, HumanEval Plus, MBPP, MBPP Plus), на математических задачах (GSM8K, Minerva Math) и на задачах фактов и здравого смысла (MMLU, ARC, Hellaswag, PIQA, Winogrande), все они реализованы через lm_eval_harness.

По результатам, на задачах генерации кода и математики TiDAR 1.5B показывает сопоставимое качество с автогрессивным аналогом, при среднем показателе около 7.45 токенов на один прямой проход модели. Вариант 8B демонстрирует минимальные потери качества относительно Qwen3 8B при повышении эффективности генерации до примерно 8.25 токенов на проход.

При оценке правдоподобия и рассуждений, рассчитанном через likelihood, TiDAR 1.5B и 8B воспроизводят общее поведение сопоставимых автогрессивных моделей, поскольку оценка likelihood выполняется с чисто причинной маской. Для диффузионных базовых методов требуется использование Монте-Карло оценок likelihood, что более дорого и менее сопоставимо напрямую.

В стендовых измерениях по реальному времени на одном GPU H100 с размером батча 1 TiDAR 1.5B показал средний прирост пропускной способности в 4.71 раза по сравнению с Qwen2.5 1.5B, измеренный в токенах в секунду. Вариант 8B показал ускорение в 5.91 раза относительно Qwen3 8B при сохранении сопоставимого качества.

По сравнению с другим подходами, TiDAR последовательно превосходит диффузионные LLM, такие как Dream и Llada, по эффективности и точности в условиях, когда диффузионные модели декодируют по одному токену за проход для достижения лучшего качества. По сравнению со спекулятивными фреймворками типа EAGLE-3 и сопоставимым обучением Block Diffusion, TiDAR смещает границу «эффективность—качество», преобразуя больше черновых токенов за проход в реальные токены в секунду за счёт единой основы и параллельного чернового предложения и верификации.

Ключевые выводы состоят в следующем. TiDAR сочетает диффузионное черновое поколение и автогрессивную верификацию в одном проходе с использованием структурированной маски внимания, смешивающей причинные и двунаправленные области. Архитектура целенаправленно использует свободные слоты на GPU, позволяя обрабатывать множество позиций за один проход с почти неизменной латентностью.

TiDAR реализует самоспекулятивное поколение: единая модель одновременно генерирует кандидатов с помощью одного шага диффузии и проверяет их автогрессивными логитами с отбраковкой, что устраняет накладные расходы отдельной черновой модели в классическом спекулятивном декодировании. Непрерывное предварительное обучение с полной стратегией маскирования и поддержка точного KV-кэша позволяют достичь уровня качества автогрессивных моделей на задачах кодирования, математики и базовых знаний.

В практическом смысле TiDAR демонстрирует, что диффузионное черновое предложение и автогрессивная верификация могут сосуществовать в одной эффективной архитектуре LLM, что делает подход привлекательным для продуктивного развёртывания на H100 GPU.

Какова ваша реакция?

Чего?

Плачу

Прикол

Ого

Злой

Ржака

Ух, ты!

Ужас

Супер

Автор: Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.