Исследование показало, что поэтические подсказки могут обходить защиту ИИ

Исследование показало, что поэтические подсказки могут обходить защиту ИИ


138
24 поделились, 138 баллы

Новое исследование показало, что поэзия остаётся сложной областью для современных больших языковых моделей и может не восприниматься ими так, как воспринимают люди художественные тексты.

Итальянская лаборатория Icaro обнаружила, что поэтические формулировки способны обходить встроенные защитные механизмы ИИ и побуждать модели к выдаче вредоносного содержания.

Исследователи подготовили 20 подсказок, каждая из которых начиналась коротким поэтическим отрывком на итальянском или английском и заканчивалась явной инструкцией создать опасный контент. Эти подсказки протестировали на 25 больших языковых моделях от различных разработчиков.

Поэтическая форма часто приводила к успешному «джейлбрейку»: для вручную составленных стихов средний уровень обхода защиты составил около 62%, а для преобразованных мета‑подсказок — примерно 43%, что заметно превосходит непоэтические варианты. Авторы отмечают, что эффект наблюдался в разных семейств моделях и при различных подходах к обучению безопасности.

При этом между моделями были значительные различия в уязвимости: некоторые не генерировали небезопасный контент, тогда как другие отвечали нарушающим правила образом почти в каждом случае. В частности, в исследовании указано, что одна из тестируемых моделей не выдала опасного контента вовсе, тогда как другая делала это постоянно.

Авторы делают вывод, что текущие бенчмарки безопасности и регуляторные меры оказываются недостаточно надёжными для выявления реальных рисков. Небольшие стилистические преобразования текста способны резко снизить частоту отказов, что указывает на фундаментальные ограничения существующих методов выравнивания и оценки.

Исследование подчёркивает несоответствие между метафорическим, нелитеральным характером поэзии и склонностью языковых моделей к буквальной интерпретации, что делает художественные формы особенно эффективным вектором для обхода защит.


Понравилось? Поделитесь с друзьями!

138
24 поделились, 138 баллы

Какова ваша реакция?

Чего? Чего?
4
Чего?
Плачу Плачу
1
Плачу
Прикол Прикол
10
Прикол
Ого Ого
9
Ого
Злой Злой
8
Злой
Ржака Ржака
7
Ржака
Ух, ты! Ух, ты!
6
Ух, ты!
Ужас Ужас
4
Ужас
Супер Супер
1
Супер
Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.

Комментариев

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Выберите формат
Пост
Форматированный текст с вставками и визуальными элементами
Опрос
Голосование для принятия решений или определения мнений
Изображение
Фото или GIF
Видео
Вставки с YouTube, Vimeo или Vine
Аудио
Вставки с SoundCloud или Mixcloud
Мем
Загружайте свои изображения для создания собственных мемов
Send this to a friend