
В ходе избирательной кампании США 2024 года был распространён робозвонок, имитировавший голос президента Джо Байдена. Несколько СМИ пришли к выводу, что запись представляет собой аудиофальсификацию, созданную с помощью технологий искусственного интеллекта, и затронула людей в нескольких штатах.
Многие источники отмечали сложность определения конкретного движка синтеза речи (TTS), использованного для подделки. В нашем анализе этой записи мы сфокусировались на идентификации TTS и пришли к выводу, что голос, вероятно, сгенерирован системой ElevenLabs.
Мы также продемонстрировали принципы работы систем обнаружения глубоких фейков, которые выявляют спектральные и временные артефакты в аудиозаписи. Для этого используется подход непрерывного присваивания оценок «живости», что повышает объяснимость результатов модели.
Аналитическая система обработала 39‑секундный аудиофрагмент в четыре этапа: фильтрация и очистка звука, извлечение признаков, разбиение на 155 сегментов по 250 миллисекунд и непрерывная оценка каждого сегмента. Такое разбиение позволяет отслеживать изменения признаков на коротких временных интервалах.
После автоматического удаления несодержательных фрагментов (тишина, шум, музыка) аудиозапись была понижена до частоты дискретизации 8 кГц, что уменьшает влияние широкополосных артефактов. Симуляция условий телефонного канала важна для объективного и репрезентативного анализа.
Система извлекает низкоуровневые спектро‑временные признаки и пропускает их через собственную глубокую нейронную сеть, затем формирует векторное представление, называемое «фейкпринт». Это компактное представление сохраняет характерные артефакты, отличающие машинную синтезированную речь от естественной, и делает выводы модели более интерпретируемыми.
Наличие фейкпринтов позволяет сопоставлять характерные артефакты с конкретными методами синтеза речи и таким образом идентифицировать используемые TTS‑движки. Движок обнаружения непрерывно генерирует оценки для каждого из 155 сегментов с моделями, натренированными на больших и разнородных наборах данных, включая образцы от 122 TTS‑систем.
Анализ «живости» показал, что голос в этом робозвонке последовательно определяется как синтетический. Оценка «живости» опустилась ниже порога 0,3 спустя первые две секунды записи и оставалась ниже этого уровня до окончания клипа, что однозначно свидетельствует о глубоком фейке.


Комментариев