
Французский стартап Mistral AI представил Voxtral Transcribe 2 — семейство из двух моделей преобразования речи в текст, созданных для достижения передового качества транскрипции и «ультранизкой задержки». В состав входят Voxtral Mini Transcribe V2 для пакетной обработки и Voxtral Realtime для приложений в реальном времени.
Voxtral Realtime выпущен как модель с открытым исходным кодом под лицензией Apache 2.0 и ориентирован на сценарии, где критична задержка. Модель использует потоковую архитектуру, транскрибируя аудио по мере его поступления, и, по заявлению разработчика, обеспечивает задержку менее 200 миллисекунд, что расширяет возможности голосовых приложений.
Семейство моделей изначально поддерживает 13 языков: английский, китайский, хинди, испанский, арабский, французский, португальский, русский, немецкий, японский, корейский, итальянский и нидерландский. Это позволяет применять модели в широкой географической и лингвистической среде.
С выходом Voxtral Mini Transcribe V2 Mistral AI позиционирует модель как заметную альтернативу устоявшимся решениям, включая возможности, присущие ChatGPT. Модель нацелена на повышение качества транскрипции и распознавания говорящих, обеспечивая стабильную работу в разных языковых сценариях.
По результатам на бенчмарке FLEURS показатель WER (word error rate) у модели составляет около четырёх процентов при стоимости примерно $0.003 за минуту. Такое соотношение точности и цены делает предложение привлекательным для многих задач автоматической транскрипции.
По заявлению Mistral, Voxtral Mini Transcribe V2 превосходит по точности такие модели, как GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal и Deepgram Nova. При сопоставимом качестве она обрабатывает аудиоданные примерно в три раза быстрее, чем ElevenLabs Scribe v2, и обходится примерно в пятую часть его стоимости.
С технической точки зрения Voxtral 2 спроектирована как экономичное корпоративное решение. Механизм контекстного сдвига (context biasing) в настоящее время оптимизирован в первую очередь для английского и позволяет обучать модель на конкретных словах и фразах для корректной транскрипции. Модель также показывает низкую чувствительность к фоновой шумовой обстановке и обеспечивает стабильную работу в акустически сложных условиях, таких как производственные цеха или контакт-центры.
Для тестирования Mistral предоставляет аудиопесочницу в Mistral Studio, где можно одновременно загрузить до десяти файлов, включать или отключать распознавание говорящих, выбирать степень детализации меток времени и добавлять термины для контекстного сдвига. Поддерживаются распространённые форматы MP3, WAV, M4A, FLAC и OGG, максимальный размер файла — один гигабайт.
Как европейская компания Mistral AI подчёркивает возможность развёртываний, соответствующих требованиям GDPR, например в локальных инфраструктурах или частных облаках. Это позиционируется как конкурентное преимущество в сравнении с зависимостью от решений, развёрнутых в юрисдикциях за пределами Европы.
Voxtral Mini Transcribe V2 доступна через API по цене $0.003 за минуту, а Voxtral Realtime для приложений в реальном времени — по $0.006 за минуту. Модель Realtime также доступна в виде версии с открытыми весами на Hugging Face.


Комментариев