Anthropic: несколько образцов могут отравить LLM любого размера

Anthropic: несколько образцов могут отравить LLM любого размера


107
21 поделиться, 107 баллы

Если у злоумышленника есть доступ к данным, на которых обучается большая языковая модель, он теоретически может повлиять на её ответы. Новое исследование групп Anthropic, UK AI Security Institute и Alan Turing Institute показывает, что это может быть значительно проще, чем ожидалось.

Исследователи обнаружили, что для нарушений модели требуется чрезвычайно малая доля «ядовитых» примеров — речь идёт о частях на миллион. В опытах с всего 250 специально подготовленными документами удавалось изменить поведение моделей различного размера.

В исследовании рассматривался специфический бэкдор, приводящий модель к выдаче бессмысленного текста в ответ на определённую триггерную фразу, внедрённую в обучающие документы. Такой приём может служить грубой формой цензуры или атаки типа «отказ в обслуживании» — при использовании веб-адреса в качестве триггера связанные запросы начнут возвращать бессмыслицу.

Авторы проверяли модели с размерами от сотен миллионов до десятков миллиардов параметров и показывали, что даже крупные модели можно сделать непригодными для определённых задач при помощи небольшого числа отравленных примеров. В то же время речь шла не о полном захвате модели, а о конкретном механизме, вызывающем искажение вывода.

Это навевает более широкую озабоченность: легче ли заставить модель генерировать бессмыслицу, чем — неправдивую или опасную информацию. Если небольшая часть обучающих данных способна подтолкнуть модель к выдаче небезопасного кода или вводящих в заблуждение инструкций, последствия могут быть серьёзнее, чем простая потеря полезности.

Вывод исследования прост и практичен: при использовании онлайн‑советов и ответов нейросетей важно проверять информацию. Поставщикам моделей требуется усилить методы очистки и контроля обучающих данных, а пользователям — сохранять осторожность при применении рекомендаций, особенно в критичных областях.


Понравилось? Поделитесь с друзьями!

107
21 поделиться, 107 баллы

Какова ваша реакция?

Чего? Чего?
10
Чего?
Плачу Плачу
7
Плачу
Прикол Прикол
6
Прикол
Ого Ого
5
Ого
Злой Злой
4
Злой
Ржака Ржака
3
Ржака
Ух, ты! Ух, ты!
2
Ух, ты!
Ужас Ужас
10
Ужас
Супер Супер
7
Супер
Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.

Комментариев

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Выберите формат
Пост
Форматированный текст с вставками и визуальными элементами
Опрос
Голосование для принятия решений или определения мнений
Изображение
Фото или GIF
Видео
Вставки с YouTube, Vimeo или Vine
Аудио
Вставки с SoundCloud или Mixcloud
Мем
Загружайте свои изображения для создания собственных мемов
Send this to a friend