2 месяца назад 2 месяца назад

Voxtral расшифровывает аудио со скоростью звука

Опубликовано: Admin 2 месяца назад2 месяца назад

92Просмотра

Компания представила Voxtral Transcribe 2 — семейство из двух моделей распознавания речи следующего поколения с высокой точностью транскрипции, диаризацией и низкой задержкой. В состав входят пакетная модель Voxtral Mini Transcribe V2 и модель для живых приложений Voxtral Realtime; веса Realtime публикуются как открытые под лицензией Apache 2.0.

Одновременно запущена звуковая площадка в Mistral Studio для мгновенного тестирования распознавания с диаризацией и отметками времени. Площадка позволяет оперативно проверить возможности моделей без настройки локального окружения.

Ключевые особенности новых моделей включают улучшенную точность распознавания, поддержку диаризации говорящих, точные метки времени на уровне слов и поддержку множества языков. Модели ориентированы на сочетание точности и экономичности при разных сценариях применения.

Voxtral Realtime разработана для приложений с критичной задержкой и использует потоковую архитектуру, транскрибирующую аудио по мере поступления. Задержка может настраиваться вплоть до значений ниже 200 мс, что делает возможными голосовые агенты и другие интерактивные сценарии. При задержке 2,4 секунды модель достигает точности, сопоставимой с пакетной версией для задач субтитрирования, а при 480 мс остаётся в пределах 1–2% от показателей пакетной модели. Realtime реализована как многиязычная модель, поддерживает 13 языков и рассчитана на эффективный запуск на edge-устройствах с объёмом порядка 4 миллиардов параметров.

Voxtral Mini Transcribe V2 ориентирована на пакетную обработку и показывает заметные улучшения качества транскрипции и диаризации в разных языковых и предметных доменах. По данным разработчиков, модель достигает примерно 4% уровня ошибок по словам на бенчмарке FLEURS и предлагается по тарифу около 0,003 доллара США за минуту. В описании также указано, что по точности она превосходит несколько альтернативных сервисов и обрабатывает аудио примерно в три раза быстрее по сравнению с некоторыми решениями при сопоставимом качестве и ниже по стоимости.

Для корпоративных внедрений модель предоставляет функции диаризации с пометками говорящих и точными временными метками начала и конца сегментов. В случае наложения речи система обычно транскрибирует преимущественно одного говорящего. Доступна функция контекстногоbiasing, позволяющая задавать до 100 слов или фраз для улучшения транскрипции имён и отраслевой лексики, с оптимизацией для английского языка.

Возможности также включают генерацию временных меток на уровне слов, что упрощает создание субтитров и поиск по аудио. Модели поддерживают расширенный набор языков: английский, китайский, хинди, испанский, арабский, французский, португальский, русский, немецкий, японский, корейский, итальянский и нидерландский. Кроме того, заявлена повышенная устойчивость к шуму и возможность обработки длительных записей в одном запросе — до трёх часов.

Аудиоплейграунд в Mistral Studio позволяет загрузить до 10 аудиофайлов, включать или выключать диаризацию, задавать детальность временных меток и добавлять термины для контекстного подстраивания. Поддерживаются форматы .mp3, .wav, .m4a, .flac и .ogg, файлы допускаются размером до 1 ГБ каждый. Площадка служит инструментом для оперативной оценки модели перед интеграцией.

Примеры применений включают аналитическую обработку встреч с многоязычными транскрипциями и диаризацией, что облегчает атрибуцию высказываний и последующий анализ. Модель также рассчитана на подключение в голосовые интерфейсы и виртуальных ассистентов с низкой задержкой; это позволяет строить более отзывчивые диалоги при связке распознавания с большими языковыми моделями и синтезом речи.

Другие сценарии использования — автоматизация контакт-центров с распознаванием в реальном времени для анализа эмоций, подсказок оператору и автоматического заполнения CRM-полей. В медиасфере решение применимо для генерации многозначных субтитров с минимальной задержкой и улучшенной обработкой имён и терминов. Для задач соответствия требованиям и документирования диаризация и точные отметки времени обеспечивают понятные аудиторские следы.

Обе модели могут использоваться в средах, соответствующих требованиям GDPR и HIPAA, при развертывании на собственных серверах или в приватном облаке. Такой подход даёт возможность соблюдения требований к приватности и защите данных в корпоративных интеграциях.

Voxtral Mini Transcribe V2 доступна через API по цене около 0,003 доллара США за минуту, а Voxtral Realtime предлагается через API по цене около 0,006 доллара США за минуту; веса Realtime также выпущены в открытом доступе. Эти параметры озвучены в релизе как ориентиры для начала тестирования и интеграции.

Компания отмечает, что ищет специалистов для работы над задачами распознавания речи и приглашает заинтересованных кандидатов рассмотреть доступные вакансии. В объявлении подчёркивается интерес к развитию голосовых технологий и внедрению моделей в продукты для разработчиков.

Какова ваша реакция?

Чего?

Плачу

Прикол

Ого

Злой

Ржака

Ух, ты!

Ужас

Супер

Автор: Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.