7 месяцев назад 7 месяцев назад

Pindrop раскрыла TTS-движок ИИ-автозвонка с Байденом

Опубликовано: Admin 7 месяцев назад7 месяцев назад

108Просмотров

В ходе избирательной кампании США 2024 года был распространён робозвонок, имитировавший голос президента Джо Байдена. Несколько СМИ пришли к выводу, что запись представляет собой аудиофальсификацию, созданную с помощью технологий искусственного интеллекта, и затронула людей в нескольких штатах.

Многие источники отмечали сложность определения конкретного движка синтеза речи (TTS), использованного для подделки. В нашем анализе этой записи мы сфокусировались на идентификации TTS и пришли к выводу, что голос, вероятно, сгенерирован системой ElevenLabs.

Мы также продемонстрировали принципы работы систем обнаружения глубоких фейков, которые выявляют спектральные и временные артефакты в аудиозаписи. Для этого используется подход непрерывного присваивания оценок «живости», что повышает объяснимость результатов модели.

Аналитическая система обработала 39‑секундный аудиофрагмент в четыре этапа: фильтрация и очистка звука, извлечение признаков, разбиение на 155 сегментов по 250 миллисекунд и непрерывная оценка каждого сегмента. Такое разбиение позволяет отслеживать изменения признаков на коротких временных интервалах.

После автоматического удаления несодержательных фрагментов (тишина, шум, музыка) аудиозапись была понижена до частоты дискретизации 8 кГц, что уменьшает влияние широкополосных артефактов. Симуляция условий телефонного канала важна для объективного и репрезентативного анализа.

Система извлекает низкоуровневые спектро‑временные признаки и пропускает их через собственную глубокую нейронную сеть, затем формирует векторное представление, называемое «фейкпринт». Это компактное представление сохраняет характерные артефакты, отличающие машинную синтезированную речь от естественной, и делает выводы модели более интерпретируемыми.

Наличие фейкпринтов позволяет сопоставлять характерные артефакты с конкретными методами синтеза речи и таким образом идентифицировать используемые TTS‑движки. Движок обнаружения непрерывно генерирует оценки для каждого из 155 сегментов с моделями, натренированными на больших и разнородных наборах данных, включая образцы от 122 TTS‑систем.

Анализ «живости» показал, что голос в этом робозвонке последовательно определяется как синтетический. Оценка «живости» опустилась ниже порога 0,3 спустя первые две секунды записи и оставалась ниже этого уровня до окончания клипа, что однозначно свидетельствует о глубоком фейке.

Какова ваша реакция?

Чего?

Плачу

Прикол

Ого

Злой

Ржака

Ух, ты!

Ужас

Супер

Автор: Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.