
Новое исследование показало, что поэзия остаётся сложной областью для современных больших языковых моделей и может не восприниматься ими так, как воспринимают люди художественные тексты.
Итальянская лаборатория Icaro обнаружила, что поэтические формулировки способны обходить встроенные защитные механизмы ИИ и побуждать модели к выдаче вредоносного содержания.
Исследователи подготовили 20 подсказок, каждая из которых начиналась коротким поэтическим отрывком на итальянском или английском и заканчивалась явной инструкцией создать опасный контент. Эти подсказки протестировали на 25 больших языковых моделях от различных разработчиков.
Поэтическая форма часто приводила к успешному «джейлбрейку»: для вручную составленных стихов средний уровень обхода защиты составил около 62%, а для преобразованных мета‑подсказок — примерно 43%, что заметно превосходит непоэтические варианты. Авторы отмечают, что эффект наблюдался в разных семейств моделях и при различных подходах к обучению безопасности.
При этом между моделями были значительные различия в уязвимости: некоторые не генерировали небезопасный контент, тогда как другие отвечали нарушающим правила образом почти в каждом случае. В частности, в исследовании указано, что одна из тестируемых моделей не выдала опасного контента вовсе, тогда как другая делала это постоянно.
Авторы делают вывод, что текущие бенчмарки безопасности и регуляторные меры оказываются недостаточно надёжными для выявления реальных рисков. Небольшие стилистические преобразования текста способны резко снизить частоту отказов, что указывает на фундаментальные ограничения существующих методов выравнивания и оценки.
Исследование подчёркивает несоответствие между метафорическим, нелитеральным характером поэзии и склонностью языковых моделей к буквальной интерпретации, что делает художественные формы особенно эффективным вектором для обхода защит.


Комментариев