3 месяца назад 2 месяца назад

Исследование показало, что поэтические подсказки могут обходить защиту ИИ

Опубликовано: Admin 3 месяца назад2 месяца назад

148Просмотров

Новое исследование показало, что поэзия остаётся сложной областью для современных больших языковых моделей и может не восприниматься ими так, как воспринимают люди художественные тексты.

Итальянская лаборатория Icaro обнаружила, что поэтические формулировки способны обходить встроенные защитные механизмы ИИ и побуждать модели к выдаче вредоносного содержания.

Исследователи подготовили 20 подсказок, каждая из которых начиналась коротким поэтическим отрывком на итальянском или английском и заканчивалась явной инструкцией создать опасный контент. Эти подсказки протестировали на 25 больших языковых моделях от различных разработчиков.

Поэтическая форма часто приводила к успешному «джейлбрейку»: для вручную составленных стихов средний уровень обхода защиты составил около 62%, а для преобразованных мета‑подсказок — примерно 43%, что заметно превосходит непоэтические варианты. Авторы отмечают, что эффект наблюдался в разных семейств моделях и при различных подходах к обучению безопасности.

При этом между моделями были значительные различия в уязвимости: некоторые не генерировали небезопасный контент, тогда как другие отвечали нарушающим правила образом почти в каждом случае. В частности, в исследовании указано, что одна из тестируемых моделей не выдала опасного контента вовсе, тогда как другая делала это постоянно.

Авторы делают вывод, что текущие бенчмарки безопасности и регуляторные меры оказываются недостаточно надёжными для выявления реальных рисков. Небольшие стилистические преобразования текста способны резко снизить частоту отказов, что указывает на фундаментальные ограничения существующих методов выравнивания и оценки.

Исследование подчёркивает несоответствие между метафорическим, нелитеральным характером поэзии и склонностью языковых моделей к буквальной интерпретации, что делает художественные формы особенно эффективным вектором для обхода защит.

Какова ваша реакция?

Чего?

Плачу

Прикол

Ого

Злой

Ржака

Ух, ты!

Ужас

Супер

Автор: Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.