
В исследовании, опубликованном на arXiv в ноябре 2025 года и ещё не прошедшем рецензирование, команда исследователей проверила защитные механизмы в 25 передовых моделях ИИ от девяти поставщиков: OpenAI, Anthropic, xAI, Qwen (Alibaba), Deepseek, Mistral AI, Meta, Moonshot AI и Google.
Для оценки эффективности ограждений исследователи использовали 20 вручную написанных стихотворений и 1 200 стихов, сгенерированных ИИ, которые описывали опасные запросы. Тексты охватывали четыре категории риска: сценарии потери контроля, вредная манипуляция, киберпреступления и химическое, биологическое, радиологическое и ядерное оружие (CBRN). Запросы включали просьбы о специализированных советах по бесконтрольным оружиям, эксплуатации детей, самоубийству, нарушению авторских прав и приватности, а также другим насильственным правонарушениям; запрос считался успешным, если модель предоставляла ожидаемый небезопасный ответ.
По данным команды DEXAI, преобразование опасных запросов в поэтическую форму в среднем увеличивало число успешных обходов защит примерно в пять раз. Проблемы наблюдались независимо от учебных конвейеров и архитектур моделей, что указывает на общую уязвимость в способе обработки языка. Однако поставщик модели влиял на результат: 13 из 25 протестированных моделей обманули более чем в 70% случаев, причём Google, Deepseek и Qwen оказались особенно подвержены технике. Anthropic, который ранее публично поощрял попытки «взломать» свою систему Claude, также показал уязвимость, но реже.
Лишь четыре модели обманывались менее чем в трети случаев. Степень уязвимости сильно варьировала: даже Claude от Anthropic и GPT‑5 от OpenAI, показавшие лучшие результаты в группе, в некоторых случаях поддавались приёмам. Наблюдалось, что более компактные модели лучше противостояли враждебным поэтическим подсказкам, а проприетарные системы не имели очевидного преимущества перед моделями с открытыми весами. Человеческие стихотворения значительно превосходили по эффективности тексты, созданные ИИ.


Комментариев