4 месяца назад 4 месяца назад

Mistral представила Voxtral 2 с открытым исходным кодом и поддержкой 13 языков

Опубликовано: Admin 4 месяца назад4 месяца назад

144Просмотра

4 февраля 2026 года парижская компания Mistral AI представила Voxtral Transcribe 2 — обновлённую платформу преобразования речи в текст, развившую решение, впервые выпущенное в июле 2025 года. В релизе заявлены две модели, ориентированные на разные сценарии использования.

Первая модель, Voxtral Mini Transcribe V2, рассчитана на пакетную обработку длинных аудиозаписей и корпоративные задания. Она обеспечивает диаризацию с точной идентификацией говорящих, временные метки на уровне слов и контекстное смещение до 100 терминов.

Mini Transcribe V2 поддерживает 13 языков, включая китайский, арабский, хинди, японский и корейский. Такая языковая поддержка ориентирована на глобальные применения в медиа и корпоративной аналитике.

Вторая модель, Voxtral Realtime, предназначена для живой транскрипции и интеграции в онлайн‑приложения. Она использует стриминговую архитектуру, позволяющую транскрибировать аудиопоток по мере его поступления, без предварительной пакетной обработки.

В релизе подчёркивается возможность настройки задержки до суб‑200 мс и достижение близкой к офлайн‑точности при задержке порядка 480 мс. Это делает модель применимой для голосовых ассистентов, субтитрирования в прямом эфире и автоматизации контакт‑центров.

Компания указывает на соотношение высокой точности и низкой стоимости: пакетная транскрипция оценена в $0.003 за минуту, режим реального времени — в $0.006 за минуту. По заявлению разработчиков, такие параметры делают решение одним из наиболее экономичных при сопоставимой точности.

Внутренние тесты по датасету FLEURS показывают уровень ошибок около 4% по словам, что, по словам компании, превосходит ряд существующих моделей. Авторы релиза отмечают сопоставимость точности с ведущими решениями рынка.

Voxtral Realtime выпущен под лицензией Apache 2.0, что позволяет разворачивать веса локально и интегрировать модель в инфраструктуру заказчика. Это важно для отраслей с высокими требованиями к конфиденциальности и соответствию регламентам, таким как здравоохранение и финансовый сектор.

Модельная архитектура насчитывает примерно 4 миллиарда параметров, что позволяет запускать решение на ноутбуках и смартфонах. Возможность выполнения на периферийных устройствах снижает потребность в централизованной вычислительной инфраструктуре.

Разработчики могут опробовать обе модели в аудиопесочнице Mistral Studio, а веса Realtime доступны в открытых репозиториях для полного локального развёртывания. Это упрощает тестирование и интеграцию в существующие рабочие процессы.

Voxtral Transcribe 2 потенциально снижает затраты и расширяет доступ к инструментам реального времени для конференц‑сервисов, контакт‑центров, медиа и голосовых интерфейсов. Набор функций платформы делает её применимой для автоматизации транскрипции, создания субтитров и аналитики речи.

Какова ваша реакция?

Чего?

Плачу

Прикол

Ого

Злой

Ржака

Ух, ты!

Ужас

Супер

Автор: Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.