
В подкаст-интервью Пэт Грейди беседует с сооснователем ElevenLabs Мати Станишевским о том, как компания сумела занять устойчивую позицию в области голосового ИИ, несмотря на рост больших мультимодальных лабораторий.
Станишевский рассказывает, что идея зародилась в 2021 году: они с сооснователем Пётром сделали несколько экспериментальных проектов, в том числе инструмент для анализа речи, а затем заметили проблему однообразного дубляжа фильмов в Польше, где все голоса часто звучат как один рассказчик.
Команда сосредоточилась именно на аудио — и это стало их преимуществом. В отличие от массового интереса к большим языковым моделям и изображению, в аудио долгое время было меньше исследовательской активности, и ElevenLabs смогли применить новые архитектуры и подходы к этой области.
Технически работа с голосом отличается от работы с текстом по трём ключевым факторам: архитектуры моделей, доступность и качество данных, а также вычислительные требования. Модель для аудио должна предсказывать звуковые единицы и учитывать тон, эмоции и невербальные признаки, а не только текстовую транскрипцию.
Данные для обучения — существенное ограничение: качественных аудиозаписей с точными транскрипциями и метками эмоций гораздо меньше, чем текста. ElevenLabs инвестировали в пайплайн разметки и обучение аннотаторов и голосовых коучей, чтобы получить нужные метки интонации, эмоций и прочих характеристик произнесения.
Компания также работает над представлением голоса как управляющего входа для модели, позволяя системе объединять контекст текста и характеристики выбранного голоса при генерации. Такое кодирование голосовых признаков позволяет воспроизводить интонацию и стилистику оригинального исполнения без явного предопределения пола или возраста голоса.
В процессе развития ElevenLabs активно выстраивали продуктную поверхность вокруг моделей, чтобы пользователи могли применять исследования на практике. По словам Станишевского, не достаточно иметь сильную модель — важно также уметь доставить качественный опыт конечному пользователю.
Набор сотрудников формировался удалённо, чтобы привлечь лучших специалистов по всему миру. Компания комбинирует исследователей, research engineers и специализированные команды по разметке, что ускоряет цикл от идеи до развертывания и повышает качество итоговых решений.
Станишевский отмечает, что небольшое число узкопрофильных экспертов в области аудио делает подбор кадров более сложным, но одновременно позволяет собрать высококомпетентную команду. Большое внимание уделяется тесной связи исследовательской работы с развёртыванием и обратной связью от пользователей.
Первые виральные моменты пришли с бета-релизом в начале 2023 года, когда авторы книг и создатели контента протестировали систему и поделились ощущениями от качества синтеза. Дополнительный интерес вызвали демонстрации эмоций, например модели, которая могла смеяться, и последующие эксперименты с дубляжем и озвучиванием музыкальных роликов.
Позже компания расширила поддержку языков и функции дубляжа, что вернуло проекту исходную идею — сохранять голос и интонацию исполнителя при переводе контента на другие языки. Эти возможности привели к новому всплеску интереса и применений в медиа и среди создателей контента.
В 2025 году ElevenLabs участвовали в проектах массового масштаба, включая интеграцию голосов в игровые проекты, где миллионы игроков взаимодействовали с персонажами. Такие развертывания потребовали внимания к надёжности, масштабируемости и безопасной модерации взаимодействий.
Станишевский перечисляет ключевые области коммерческого применения: автоматизация звонков и поддержки в здравоохранении, голосовая служба поддержки, образовательные продукты и персональные репетиторы. В образовании голос позволяет создавать персонализированные наставничества и сопровождение, а в службах поддержки — более доступное взаимодействие с пользователями.
Одновременно он подчёркивает, что интерфейс — не всегда главный узел: успех зависит от знания предметной области, интеграций и бизнес-логики. Частая проблема при внедрении голосовых агентов — подключение к CRM, телефонным платформам и другим системам, поэтому интеграции и стандарты очень важны для бизнеса.
В части конкуренции с крупными foundation-моделями ElevenLabs действует прагматично: компания остаётся поставщиком аудиокомпонента и остаётся провайдер-агностиком по LLM, используя несколько моделей и обеспечивая гибкие цепочки резервирования. Такой подход снижает риски зависимости и помогает обеспечивать устойчивость сервиса.
Для клиентов важны три характеристики: качество озвучивания, задержка отклика (латентность) и надёжность при масштабировании. Требования к качеству различаются по случаям использования, но если качество низкое, остальные параметры теряют значение.
Станишевский оценивает перспективы достижения «тестa Тьюринга» для голоса как реалистичные в ближайшие несколько лет и допускает, что комбинация каскадных систем и будущих двунаправленных (duplex) моделей может дать прорыв. При этом он выделяет компромиссы между выразительностью, скоростью и надёжностью разных архитектур.
Компания серьёзно относится к проблеме подделки голосов и импесонации: основная мера — привязка генерируемого аудио к аккаунту-источнику и возможности отслеживания происхождения контента. Также применяются модерация на уровне текста и голоса, сотрудничество с академическими партнёрами и разработка средств детекции синтетической речи.
Оценка построения бизнеса в Европе: Станишевский отмечает высокий уровень технических кадров и международную ориентацию команды как преимущество. В то же время в Европе меньше экспертов с опытом масштабных стартапов и сильных экосистемных связей, а регуляторные инициативы, такие как AI Act, могут замедлять развертывание.
Отвечая на вопрос о будущем, он делает ставку на голос как основной интерфейс для образования, межкультурного обмена и повседневных сервисов. Технологии перевода в реальном времени и сохранения интонации, по его мнению, радикально изменят коммуникацию и доступ к контенту.
Станишевский ожидает, что первые массовые формы реализации перевода и голосовой поддержки появятся в наушниках и очках, а впоследствии возможны и более смелые форм-факторы. Он также считает, что кросс-лингвальные применения — недооценённое направление с большим потенциалом.
В завершение он делится личными предпочтениями и уважением к исследователям, отмечая использование различных AI-инструментов в повседневной работе и восхищение работой лидеров отрасли, таких как Демис Хассабис. Собеседники подчеркивают, что развитие голосового ИИ будет сочетать технологические, продуктовые и этические вызовы по мере широкого внедрения.


Комментариев