Voxtral расшифровывает аудио со скоростью звука

Voxtral расшифровывает аудио со скоростью звука


83
19 поделились, 83 баллы

Компания представила Voxtral Transcribe 2 — семейство из двух моделей распознавания речи следующего поколения с высокой точностью транскрипции, диаризацией и низкой задержкой. В состав входят пакетная модель Voxtral Mini Transcribe V2 и модель для живых приложений Voxtral Realtime; веса Realtime публикуются как открытые под лицензией Apache 2.0.

Одновременно запущена звуковая площадка в Mistral Studio для мгновенного тестирования распознавания с диаризацией и отметками времени. Площадка позволяет оперативно проверить возможности моделей без настройки локального окружения.

Ключевые особенности новых моделей включают улучшенную точность распознавания, поддержку диаризации говорящих, точные метки времени на уровне слов и поддержку множества языков. Модели ориентированы на сочетание точности и экономичности при разных сценариях применения.

Voxtral Realtime разработана для приложений с критичной задержкой и использует потоковую архитектуру, транскрибирующую аудио по мере поступления. Задержка может настраиваться вплоть до значений ниже 200 мс, что делает возможными голосовые агенты и другие интерактивные сценарии. При задержке 2,4 секунды модель достигает точности, сопоставимой с пакетной версией для задач субтитрирования, а при 480 мс остаётся в пределах 1–2% от показателей пакетной модели. Realtime реализована как многиязычная модель, поддерживает 13 языков и рассчитана на эффективный запуск на edge-устройствах с объёмом порядка 4 миллиардов параметров.

Voxtral Mini Transcribe V2 ориентирована на пакетную обработку и показывает заметные улучшения качества транскрипции и диаризации в разных языковых и предметных доменах. По данным разработчиков, модель достигает примерно 4% уровня ошибок по словам на бенчмарке FLEURS и предлагается по тарифу около 0,003 доллара США за минуту. В описании также указано, что по точности она превосходит несколько альтернативных сервисов и обрабатывает аудио примерно в три раза быстрее по сравнению с некоторыми решениями при сопоставимом качестве и ниже по стоимости.

Для корпоративных внедрений модель предоставляет функции диаризации с пометками говорящих и точными временными метками начала и конца сегментов. В случае наложения речи система обычно транскрибирует преимущественно одного говорящего. Доступна функция контекстногоbiasing, позволяющая задавать до 100 слов или фраз для улучшения транскрипции имён и отраслевой лексики, с оптимизацией для английского языка.

Возможности также включают генерацию временных меток на уровне слов, что упрощает создание субтитров и поиск по аудио. Модели поддерживают расширенный набор языков: английский, китайский, хинди, испанский, арабский, французский, португальский, русский, немецкий, японский, корейский, итальянский и нидерландский. Кроме того, заявлена повышенная устойчивость к шуму и возможность обработки длительных записей в одном запросе — до трёх часов.

Аудиоплейграунд в Mistral Studio позволяет загрузить до 10 аудиофайлов, включать или выключать диаризацию, задавать детальность временных меток и добавлять термины для контекстного подстраивания. Поддерживаются форматы .mp3, .wav, .m4a, .flac и .ogg, файлы допускаются размером до 1 ГБ каждый. Площадка служит инструментом для оперативной оценки модели перед интеграцией.

Примеры применений включают аналитическую обработку встреч с многоязычными транскрипциями и диаризацией, что облегчает атрибуцию высказываний и последующий анализ. Модель также рассчитана на подключение в голосовые интерфейсы и виртуальных ассистентов с низкой задержкой; это позволяет строить более отзывчивые диалоги при связке распознавания с большими языковыми моделями и синтезом речи.

Другие сценарии использования — автоматизация контакт-центров с распознаванием в реальном времени для анализа эмоций, подсказок оператору и автоматического заполнения CRM-полей. В медиасфере решение применимо для генерации многозначных субтитров с минимальной задержкой и улучшенной обработкой имён и терминов. Для задач соответствия требованиям и документирования диаризация и точные отметки времени обеспечивают понятные аудиторские следы.

Обе модели могут использоваться в средах, соответствующих требованиям GDPR и HIPAA, при развертывании на собственных серверах или в приватном облаке. Такой подход даёт возможность соблюдения требований к приватности и защите данных в корпоративных интеграциях.

Voxtral Mini Transcribe V2 доступна через API по цене около 0,003 доллара США за минуту, а Voxtral Realtime предлагается через API по цене около 0,006 доллара США за минуту; веса Realtime также выпущены в открытом доступе. Эти параметры озвучены в релизе как ориентиры для начала тестирования и интеграции.

Компания отмечает, что ищет специалистов для работы над задачами распознавания речи и приглашает заинтересованных кандидатов рассмотреть доступные вакансии. В объявлении подчёркивается интерес к развитию голосовых технологий и внедрению моделей в продукты для разработчиков.


Понравилось? Поделитесь с друзьями!

83
19 поделились, 83 баллы

Какова ваша реакция?

Чего? Чего?
10
Чего?
Плачу Плачу
7
Плачу
Прикол Прикол
6
Прикол
Ого Ого
5
Ого
Злой Злой
4
Злой
Ржака Ржака
3
Ржака
Ух, ты! Ух, ты!
2
Ух, ты!
Ужас Ужас
10
Ужас
Супер Супер
7
Супер
Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.

Комментариев

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Выберите формат
Пост
Форматированный текст с вставками и визуальными элементами
Опрос
Голосование для принятия решений или определения мнений
Изображение
Фото или GIF
Видео
Вставки с YouTube, Vimeo или Vine
Аудио
Вставки с SoundCloud или Mixcloud
Мем
Загружайте свои изображения для создания собственных мемов
Send this to a friend