Mistral представила Voxtral 2 с открытым исходным кодом и поддержкой 13 языков

Mistral представила Voxtral 2 с открытым исходным кодом и поддержкой 13 языков


129
23 поделились, 129 баллы

4 февраля 2026 года парижская компания Mistral AI представила Voxtral Transcribe 2 — обновлённую платформу преобразования речи в текст, развившую решение, впервые выпущенное в июле 2025 года. В релизе заявлены две модели, ориентированные на разные сценарии использования.

Первая модель, Voxtral Mini Transcribe V2, рассчитана на пакетную обработку длинных аудиозаписей и корпоративные задания. Она обеспечивает диаризацию с точной идентификацией говорящих, временные метки на уровне слов и контекстное смещение до 100 терминов.

Mini Transcribe V2 поддерживает 13 языков, включая китайский, арабский, хинди, японский и корейский. Такая языковая поддержка ориентирована на глобальные применения в медиа и корпоративной аналитике.

Вторая модель, Voxtral Realtime, предназначена для живой транскрипции и интеграции в онлайн‑приложения. Она использует стриминговую архитектуру, позволяющую транскрибировать аудиопоток по мере его поступления, без предварительной пакетной обработки.

В релизе подчёркивается возможность настройки задержки до суб‑200 мс и достижение близкой к офлайн‑точности при задержке порядка 480 мс. Это делает модель применимой для голосовых ассистентов, субтитрирования в прямом эфире и автоматизации контакт‑центров.

Компания указывает на соотношение высокой точности и низкой стоимости: пакетная транскрипция оценена в $0.003 за минуту, режим реального времени — в $0.006 за минуту. По заявлению разработчиков, такие параметры делают решение одним из наиболее экономичных при сопоставимой точности.

Внутренние тесты по датасету FLEURS показывают уровень ошибок около 4% по словам, что, по словам компании, превосходит ряд существующих моделей. Авторы релиза отмечают сопоставимость точности с ведущими решениями рынка.

Voxtral Realtime выпущен под лицензией Apache 2.0, что позволяет разворачивать веса локально и интегрировать модель в инфраструктуру заказчика. Это важно для отраслей с высокими требованиями к конфиденциальности и соответствию регламентам, таким как здравоохранение и финансовый сектор.

Модельная архитектура насчитывает примерно 4 миллиарда параметров, что позволяет запускать решение на ноутбуках и смартфонах. Возможность выполнения на периферийных устройствах снижает потребность в централизованной вычислительной инфраструктуре.

Разработчики могут опробовать обе модели в аудиопесочнице Mistral Studio, а веса Realtime доступны в открытых репозиториях для полного локального развёртывания. Это упрощает тестирование и интеграцию в существующие рабочие процессы.

Voxtral Transcribe 2 потенциально снижает затраты и расширяет доступ к инструментам реального времени для конференц‑сервисов, контакт‑центров, медиа и голосовых интерфейсов. Набор функций платформы делает её применимой для автоматизации транскрипции, создания субтитров и аналитики речи.


Понравилось? Поделитесь с друзьями!

129
23 поделились, 129 баллы

Какова ваша реакция?

Чего? Чего?
3
Чего?
Плачу Плачу
10
Плачу
Прикол Прикол
9
Прикол
Ого Ого
8
Ого
Злой Злой
7
Злой
Ржака Ржака
6
Ржака
Ух, ты! Ух, ты!
5
Ух, ты!
Ужас Ужас
3
Ужас
Супер Супер
10
Супер
Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.

Комментариев

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Выберите формат
Пост
Форматированный текст с вставками и визуальными элементами
Опрос
Голосование для принятия решений или определения мнений
Изображение
Фото или GIF
Видео
Вставки с YouTube, Vimeo или Vine
Аудио
Вставки с SoundCloud или Mixcloud
Мем
Загружайте свои изображения для создания собственных мемов
Send this to a friend