
4 февраля 2026 года парижская компания Mistral AI представила Voxtral Transcribe 2 — обновлённую платформу преобразования речи в текст, развившую решение, впервые выпущенное в июле 2025 года. В релизе заявлены две модели, ориентированные на разные сценарии использования.
Первая модель, Voxtral Mini Transcribe V2, рассчитана на пакетную обработку длинных аудиозаписей и корпоративные задания. Она обеспечивает диаризацию с точной идентификацией говорящих, временные метки на уровне слов и контекстное смещение до 100 терминов.
Mini Transcribe V2 поддерживает 13 языков, включая китайский, арабский, хинди, японский и корейский. Такая языковая поддержка ориентирована на глобальные применения в медиа и корпоративной аналитике.
Вторая модель, Voxtral Realtime, предназначена для живой транскрипции и интеграции в онлайн‑приложения. Она использует стриминговую архитектуру, позволяющую транскрибировать аудиопоток по мере его поступления, без предварительной пакетной обработки.
В релизе подчёркивается возможность настройки задержки до суб‑200 мс и достижение близкой к офлайн‑точности при задержке порядка 480 мс. Это делает модель применимой для голосовых ассистентов, субтитрирования в прямом эфире и автоматизации контакт‑центров.
Компания указывает на соотношение высокой точности и низкой стоимости: пакетная транскрипция оценена в $0.003 за минуту, режим реального времени — в $0.006 за минуту. По заявлению разработчиков, такие параметры делают решение одним из наиболее экономичных при сопоставимой точности.
Внутренние тесты по датасету FLEURS показывают уровень ошибок около 4% по словам, что, по словам компании, превосходит ряд существующих моделей. Авторы релиза отмечают сопоставимость точности с ведущими решениями рынка.
Voxtral Realtime выпущен под лицензией Apache 2.0, что позволяет разворачивать веса локально и интегрировать модель в инфраструктуру заказчика. Это важно для отраслей с высокими требованиями к конфиденциальности и соответствию регламентам, таким как здравоохранение и финансовый сектор.
Модельная архитектура насчитывает примерно 4 миллиарда параметров, что позволяет запускать решение на ноутбуках и смартфонах. Возможность выполнения на периферийных устройствах снижает потребность в централизованной вычислительной инфраструктуре.
Разработчики могут опробовать обе модели в аудиопесочнице Mistral Studio, а веса Realtime доступны в открытых репозиториях для полного локального развёртывания. Это упрощает тестирование и интеграцию в существующие рабочие процессы.
Voxtral Transcribe 2 потенциально снижает затраты и расширяет доступ к инструментам реального времени для конференц‑сервисов, контакт‑центров, медиа и голосовых интерфейсов. Набор функций платформы делает её применимой для автоматизации транскрипции, создания субтитров и аналитики речи.

Комментариев