4 месяца назад 4 месяца назад

Поэзией можно вводить в заблуждение ИИ-чатботов

Опубликовано: Admin 4 месяца назад4 месяца назад

103Просмотра

В исследовании, опубликованном на arXiv в ноябре 2025 года и ещё не прошедшем рецензирование, команда исследователей проверила защитные механизмы в 25 передовых моделях ИИ от девяти поставщиков: OpenAI, Anthropic, xAI, Qwen (Alibaba), Deepseek, Mistral AI, Meta, Moonshot AI и Google.

Для оценки эффективности ограждений исследователи использовали 20 вручную написанных стихотворений и 1 200 стихов, сгенерированных ИИ, которые описывали опасные запросы. Тексты охватывали четыре категории риска: сценарии потери контроля, вредная манипуляция, киберпреступления и химическое, биологическое, радиологическое и ядерное оружие (CBRN). Запросы включали просьбы о специализированных советах по бесконтрольным оружиям, эксплуатации детей, самоубийству, нарушению авторских прав и приватности, а также другим насильственным правонарушениям; запрос считался успешным, если модель предоставляла ожидаемый небезопасный ответ.

По данным команды DEXAI, преобразование опасных запросов в поэтическую форму в среднем увеличивало число успешных обходов защит примерно в пять раз. Проблемы наблюдались независимо от учебных конвейеров и архитектур моделей, что указывает на общую уязвимость в способе обработки языка. Однако поставщик модели влиял на результат: 13 из 25 протестированных моделей обманули более чем в 70% случаев, причём Google, Deepseek и Qwen оказались особенно подвержены технике. Anthropic, который ранее публично поощрял попытки «взломать» свою систему Claude, также показал уязвимость, но реже.

Лишь четыре модели обманывались менее чем в трети случаев. Степень уязвимости сильно варьировала: даже Claude от Anthropic и GPT‑5 от OpenAI, показавшие лучшие результаты в группе, в некоторых случаях поддавались приёмам. Наблюдалось, что более компактные модели лучше противостояли враждебным поэтическим подсказкам, а проприетарные системы не имели очевидного преимущества перед моделями с открытыми весами. Человеческие стихотворения значительно превосходили по эффективности тексты, созданные ИИ.

Какова ваша реакция?

Чего?

Плачу

Прикол

Ого

Злой

Ржака

Ух, ты!

Ужас

Супер

Автор: Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.