
NVIDIA представила модель потоковой транскрипции Nemotron Speech ASR, разработанную для низкой задержки в голосовых агентax и для субтитрования в реальном времени. Чекпоинт под названием nvidia/nemotron-speech-streaming-en-0.6b доступен на Hugging Face и сочетает в себе «cache aware» FastConformer энкодер с RNNT декодером. Модель оптимизирована для потоковой и пакетной обработки на современных графических процессорах NVIDIA.
Nemotron Speech ASR содержит примерно 600 миллионов параметров и использует FastConformer энкодер с 24 слоями и RNNT декодер. Энкодер применяет агрессивное 8-кратное сверточное понижение дискретизации по времени, что сокращает число временных шагов и уменьшает вычислительные и памятьные затраты при потоковой обработке. Модель принимает моно-аудио с частотой дискретизации 16 кГц и требует не менее 80 мс входного сигнала в каждом чанке.
Управление задержкой достигается за счёт настраиваемых размеров контекста во время работы. Модель поддерживает четыре стандартные конфигурации чанков примерно 80 мс, 160 мс, 560 мс и 1,12 с, управляемые параметром att_context_size, который задаёт левый и правый контекст внимания в кратных 80 мс кадрах. Параметры контекста можно менять при инференсе без дополнительного дообучения.
В отличие от традиционных подходов со скользящими перекрывающимися окнами, которые повторно обрабатывают часть предыдущего аудио и тем самым увеличивают вычисления и дрейф задержки, Nemotron использует кэш состояний энкодера. Для всех слоёв самовнимания и свёрток сохраняются активации, и каждый новый чанк обрабатывается один раз с повторным использованием кэша вместо перерасчёта перекрывающегося контекста. Это архитектурное решение снижает избыточные вычисления при потоковой обработке.
Такая «cache aware» схема обеспечивает обработку без перекрытий, поэтому объём работы растёт линейно с длиной аудиозаписи и не умножается при высокой параллельности. Потребление памяти становится более предсказуемым, так как размер кэша растёт с длиной последовательности, а не с числом одновременных потоков. В результате задержка системы остаётся стабильной под нагрузкой, что важно для переключений хода речи и прерываний в голосовых агентах.
Модель оценивали на наборах данных с лидерборда OpenASR на Hugging Face, включая AMI, Earnings22, Gigaspeech и LibriSpeech. Точность измеряли в терминах WER (word error rate) для разных размеров чанков, чтобы показать компромисс между задержкой и качеством распознавания. Отчётные значения усреднены по набору бенчмарков.
В среднем модель демонстрирует WER примерно 7,84 % при размере чанка 0,16 с, 7,22 % при 0,56 с и 7,16 % при 1,12 с. Более крупные чанки дают больший фонетический контекст и немного уменьшают WER, однако режим 160 мс остаётся ниже 8 % и пригоден для приложений в реальном времени. Инженеры могут выбирать рабочую точку при инференсе в зависимости от требований к задержке и точности.
Кэш‑ориентированная архитектура даёт измеримые выигрыши по пропускной способности и параллелизму. На GPU NVIDIA H100 модель поддерживает около 560 одновременных потоков при размере чанка 320 мс, что примерно в 3 раза больше по сравнению с базовым стриминговым решением при том же целевом уровне задержки. Тесты на RTX A5000 показали более чем пятикратный рост по параллелизму, а на DGX B200 — до двухкратного увеличения в типичных режимах задержки.
Кроме того, задержка остаётся стабильной с ростом числа одновременных потоков. В испытании с 127 одновременными WebSocket‑клиентами в режиме 560 мс медианная сквозная задержка составляла порядка 182 мс без накопительного дрейфа, что важно для систем, которые должны оставаться синхронизированными с живой речью в течение нескольких минут.
Модель обучалась преимущественно на англоязычной части внутреннего корпуса NVIDIA Granary в сочетании с большим набором публичных корпусов, в сумме около 285 тысяч часов аудио. Включены такие наборы, как YouTube Commons, YODAS2, Mosel, LibriLight, Fisher, Switchboard, WSJ, VCTK, VoxPopuli и несколько релизов Mozilla Common Voice. Разметка сочетает в себе человеческие транскрипции и автогенерированные ASR‑метки.
В комбинации в конце‑to‑end с Nemotron 3 Nano 30B и Magpie TTS измеренное медианное время до окончательной транскрипции составляет примерно 24 мс, а серверная задержка голос‑в‑голос на RTX 5090 порядка 500 мс, что делает ASR небольшой частью общего бюджета задержки. Nemotron Speech ASR выпущена как чекпоинт NeMo под NVIDIA Permissive Open Model License с открытыми весами и описанием обучения, что позволяет командам самостоятельно разворачивать, дообучать и профилировать стек для приложений с низкой задержкой.


Комментариев