
Когда Synthesia появилась в 2017 году, её основная задача заключалась в создании искусственных версий реальных лиц и их синхронизации с дублированными голосами на разных языках. Несколько лет спустя компания предложила клиентам возможность выпускать профессиональные презентационные ролики с участием виртуальных сотрудников или актёров. Технология поначалу страдала от ограничений: движения тела аватаров выглядели резкими, акценты иногда срывались, а голосовые эмоции не всегда соответствовали мимике.
Сегодня аватары Synthesia получили более естественные манеры и движения, а также выразительные голоса, которые лучше сохраняют особенности произношения. Это делает их заметно более похожими на живых людей. Для корпоративных клиентов такие аватары обещают более качественную подачу финансовых отчётов, внутренних сообщений и обучающих материалов.
Демонстрация моего аватара произвела на меня одновременно тревожное и технически впечатляющее впечатление. Видео достаточно правдоподобно, чтобы сойти за запись выступления в высоком разрешении, и без знания исходной ситуации трудно отличить его от реальной съёмки. Это подчёркивает растущую сложность распознавания искусственного и настоящего, а также указывает на то, что в будущем аватары смогут вступать в интерактивный диалог с людьми.
Когда моя бывшая коллега Мелисса в 2024 году приезжала в лондонскую студию Synthesia для создания собственного аватара, процесс требовал тщательной калибровки: чтения подготовленных текстов в разных эмоциональных состояниях и артикуляционных упражнений для формирования гласных и согласных. Около пятнадцати месяцев спустя мне сообщили, что процедура упростилась. Технический руководитель просил меня жестикулировать естественно, но не слишком активно, и во время записи я повторяла эмоционально насыщенный рекламный текст.
В записи мне предлагалось говорить воодушевлённо и энергично; в результате собственная речь звучала так, как будто я представляю продукт компании. Через час съёмки команда получила достаточно материала для обработки, а спустя несколько недель мне прислали два варианта аватара: один на базе прежней модели Express-1 и другой — на новой Express-2.
Синтезия утверждает, что Express-2 делает виртуальных персонажей более правдоподобными и ближе по индивидуальным чертам к прототипам: добавлены более выразительные жесты руками, мимика и улучшенная синхронизация речи. Это должно повысить естественность представления и точность передачи интонаций.
Как показал опыт Мелиссы, аватар на базе Express-1 плохо воспроизводил её смешанный акцент и имел ограниченный эмоциональный диапазон; попытки передать злость звучали скорее жалобно. Хотя компания внесла улучшения в Express-1, версия моего аватара на этой модели всё ещё часто моргала слишком часто и испытывала трудности с координацией движений тела и речи.
В отличие от этого, мой аватар на Express-2 выглядел и звучал заметно ближе ко мне: черты лица и голос были очень похожи, а движения рук, хотя и более активные, в целом соответствовали произносимому тексту. Такое развитие указывает на дальнейшее сближение возможностей генеративного видео с живой речью и поведением людей.


Комментариев