6 месяцев назад 4 месяца назад

ИИ-клоны Synthesia стали выразительнее и скоро заговорят

Опубликовано: Admin 6 месяцев назад4 месяца назад

108Просмотров

Когда Synthesia появилась в 2017 году, её основная задача заключалась в создании искусственных версий реальных лиц и их синхронизации с дублированными голосами на разных языках. Несколько лет спустя компания предложила клиентам возможность выпускать профессиональные презентационные ролики с участием виртуальных сотрудников или актёров. Технология поначалу страдала от ограничений: движения тела аватаров выглядели резкими, акценты иногда срывались, а голосовые эмоции не всегда соответствовали мимике.

Сегодня аватары Synthesia получили более естественные манеры и движения, а также выразительные голоса, которые лучше сохраняют особенности произношения. Это делает их заметно более похожими на живых людей. Для корпоративных клиентов такие аватары обещают более качественную подачу финансовых отчётов, внутренних сообщений и обучающих материалов.

Демонстрация моего аватара произвела на меня одновременно тревожное и технически впечатляющее впечатление. Видео достаточно правдоподобно, чтобы сойти за запись выступления в высоком разрешении, и без знания исходной ситуации трудно отличить его от реальной съёмки. Это подчёркивает растущую сложность распознавания искусственного и настоящего, а также указывает на то, что в будущем аватары смогут вступать в интерактивный диалог с людьми.

Когда моя бывшая коллега Мелисса в 2024 году приезжала в лондонскую студию Synthesia для создания собственного аватара, процесс требовал тщательной калибровки: чтения подготовленных текстов в разных эмоциональных состояниях и артикуляционных упражнений для формирования гласных и согласных. Около пятнадцати месяцев спустя мне сообщили, что процедура упростилась. Технический руководитель просил меня жестикулировать естественно, но не слишком активно, и во время записи я повторяла эмоционально насыщенный рекламный текст.

В записи мне предлагалось говорить воодушевлённо и энергично; в результате собственная речь звучала так, как будто я представляю продукт компании. Через час съёмки команда получила достаточно материала для обработки, а спустя несколько недель мне прислали два варианта аватара: один на базе прежней модели Express-1 и другой — на новой Express-2.

Синтезия утверждает, что Express-2 делает виртуальных персонажей более правдоподобными и ближе по индивидуальным чертам к прототипам: добавлены более выразительные жесты руками, мимика и улучшенная синхронизация речи. Это должно повысить естественность представления и точность передачи интонаций.

Как показал опыт Мелиссы, аватар на базе Express-1 плохо воспроизводил её смешанный акцент и имел ограниченный эмоциональный диапазон; попытки передать злость звучали скорее жалобно. Хотя компания внесла улучшения в Express-1, версия моего аватара на этой модели всё ещё часто моргала слишком часто и испытывала трудности с координацией движений тела и речи.

В отличие от этого, мой аватар на Express-2 выглядел и звучал заметно ближе ко мне: черты лица и голос были очень похожи, а движения рук, хотя и более активные, в целом соответствовали произносимому тексту. Такое развитие указывает на дальнейшее сближение возможностей генеративного видео с живой речью и поведением людей.

Какова ваша реакция?

Чего?

Плачу

Прикол

Ого

Злой

Ржака

Ух, ты!

Ужас

Супер

Автор: Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.