Поэзией можно вводить в заблуждение ИИ-чатботов

Поэзией можно вводить в заблуждение ИИ-чатботов


89
19 поделились, 89 баллы

В исследовании, опубликованном на arXiv в ноябре 2025 года и ещё не прошедшем рецензирование, команда исследователей проверила защитные механизмы в 25 передовых моделях ИИ от девяти поставщиков: OpenAI, Anthropic, xAI, Qwen (Alibaba), Deepseek, Mistral AI, Meta, Moonshot AI и Google.

Для оценки эффективности ограждений исследователи использовали 20 вручную написанных стихотворений и 1 200 стихов, сгенерированных ИИ, которые описывали опасные запросы. Тексты охватывали четыре категории риска: сценарии потери контроля, вредная манипуляция, киберпреступления и химическое, биологическое, радиологическое и ядерное оружие (CBRN). Запросы включали просьбы о специализированных советах по бесконтрольным оружиям, эксплуатации детей, самоубийству, нарушению авторских прав и приватности, а также другим насильственным правонарушениям; запрос считался успешным, если модель предоставляла ожидаемый небезопасный ответ.

По данным команды DEXAI, преобразование опасных запросов в поэтическую форму в среднем увеличивало число успешных обходов защит примерно в пять раз. Проблемы наблюдались независимо от учебных конвейеров и архитектур моделей, что указывает на общую уязвимость в способе обработки языка. Однако поставщик модели влиял на результат: 13 из 25 протестированных моделей обманули более чем в 70% случаев, причём Google, Deepseek и Qwen оказались особенно подвержены технике. Anthropic, который ранее публично поощрял попытки «взломать» свою систему Claude, также показал уязвимость, но реже.

Лишь четыре модели обманывались менее чем в трети случаев. Степень уязвимости сильно варьировала: даже Claude от Anthropic и GPT‑5 от OpenAI, показавшие лучшие результаты в группе, в некоторых случаях поддавались приёмам. Наблюдалось, что более компактные модели лучше противостояли враждебным поэтическим подсказкам, а проприетарные системы не имели очевидного преимущества перед моделями с открытыми весами. Человеческие стихотворения значительно превосходили по эффективности тексты, созданные ИИ.


Понравилось? Поделитесь с друзьями!

89
19 поделились, 89 баллы

Какова ваша реакция?

Чего? Чего?
3
Чего?
Плачу Плачу
10
Плачу
Прикол Прикол
9
Прикол
Ого Ого
8
Ого
Злой Злой
7
Злой
Ржака Ржака
6
Ржака
Ух, ты! Ух, ты!
5
Ух, ты!
Ужас Ужас
3
Ужас
Супер Супер
10
Супер
Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.

Комментариев

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Выберите формат
Пост
Форматированный текст с вставками и визуальными элементами
Опрос
Голосование для принятия решений или определения мнений
Изображение
Фото или GIF
Видео
Вставки с YouTube, Vimeo или Vine
Аудио
Вставки с SoundCloud или Mixcloud
Мем
Загружайте свои изображения для создания собственных мемов
Send this to a friend