Pindrop раскрыла TTS-движок ИИ-автозвонка с Байденом

Pindrop раскрыла TTS-движок ИИ-автозвонка с Байденом


88
19 поделились, 88 баллы

В ходе избирательной кампании США 2024 года был распространён робозвонок, имитировавший голос президента Джо Байдена. Несколько СМИ пришли к выводу, что запись представляет собой аудиофальсификацию, созданную с помощью технологий искусственного интеллекта, и затронула людей в нескольких штатах.

Многие источники отмечали сложность определения конкретного движка синтеза речи (TTS), использованного для подделки. В нашем анализе этой записи мы сфокусировались на идентификации TTS и пришли к выводу, что голос, вероятно, сгенерирован системой ElevenLabs.

Мы также продемонстрировали принципы работы систем обнаружения глубоких фейков, которые выявляют спектральные и временные артефакты в аудиозаписи. Для этого используется подход непрерывного присваивания оценок «живости», что повышает объяснимость результатов модели.

Аналитическая система обработала 39‑секундный аудиофрагмент в четыре этапа: фильтрация и очистка звука, извлечение признаков, разбиение на 155 сегментов по 250 миллисекунд и непрерывная оценка каждого сегмента. Такое разбиение позволяет отслеживать изменения признаков на коротких временных интервалах.

После автоматического удаления несодержательных фрагментов (тишина, шум, музыка) аудиозапись была понижена до частоты дискретизации 8 кГц, что уменьшает влияние широкополосных артефактов. Симуляция условий телефонного канала важна для объективного и репрезентативного анализа.

Система извлекает низкоуровневые спектро‑временные признаки и пропускает их через собственную глубокую нейронную сеть, затем формирует векторное представление, называемое «фейкпринт». Это компактное представление сохраняет характерные артефакты, отличающие машинную синтезированную речь от естественной, и делает выводы модели более интерпретируемыми.

Наличие фейкпринтов позволяет сопоставлять характерные артефакты с конкретными методами синтеза речи и таким образом идентифицировать используемые TTS‑движки. Движок обнаружения непрерывно генерирует оценки для каждого из 155 сегментов с моделями, натренированными на больших и разнородных наборах данных, включая образцы от 122 TTS‑систем.

Анализ «живости» показал, что голос в этом робозвонке последовательно определяется как синтетический. Оценка «живости» опустилась ниже порога 0,3 спустя первые две секунды записи и оставалась ниже этого уровня до окончания клипа, что однозначно свидетельствует о глубоком фейке.


Понравилось? Поделитесь с друзьями!

88
19 поделились, 88 баллы

Какова ваша реакция?

Чего? Чего?
2
Чего?
Плачу Плачу
9
Плачу
Прикол Прикол
8
Прикол
Ого Ого
7
Ого
Злой Злой
6
Злой
Ржака Ржака
5
Ржака
Ух, ты! Ух, ты!
4
Ух, ты!
Ужас Ужас
2
Ужас
Супер Супер
9
Супер
Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.

Комментариев

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Выберите формат
Пост
Форматированный текст с вставками и визуальными элементами
Опрос
Голосование для принятия решений или определения мнений
Изображение
Фото или GIF
Видео
Вставки с YouTube, Vimeo или Vine
Аудио
Вставки с SoundCloud или Mixcloud
Мем
Загружайте свои изображения для создания собственных мемов
Send this to a friend