4 месяца назад 4 месяца назад

Anthropic: несколько образцов могут отравить LLM любого размера

Опубликовано: Admin 4 месяца назад4 месяца назад

118Просмотров

Если у злоумышленника есть доступ к данным, на которых обучается большая языковая модель, он теоретически может повлиять на её ответы. Новое исследование групп Anthropic, UK AI Security Institute и Alan Turing Institute показывает, что это может быть значительно проще, чем ожидалось.

Исследователи обнаружили, что для нарушений модели требуется чрезвычайно малая доля «ядовитых» примеров — речь идёт о частях на миллион. В опытах с всего 250 специально подготовленными документами удавалось изменить поведение моделей различного размера.

В исследовании рассматривался специфический бэкдор, приводящий модель к выдаче бессмысленного текста в ответ на определённую триггерную фразу, внедрённую в обучающие документы. Такой приём может служить грубой формой цензуры или атаки типа «отказ в обслуживании» — при использовании веб-адреса в качестве триггера связанные запросы начнут возвращать бессмыслицу.

Авторы проверяли модели с размерами от сотен миллионов до десятков миллиардов параметров и показывали, что даже крупные модели можно сделать непригодными для определённых задач при помощи небольшого числа отравленных примеров. В то же время речь шла не о полном захвате модели, а о конкретном механизме, вызывающем искажение вывода.

Это навевает более широкую озабоченность: легче ли заставить модель генерировать бессмыслицу, чем — неправдивую или опасную информацию. Если небольшая часть обучающих данных способна подтолкнуть модель к выдаче небезопасного кода или вводящих в заблуждение инструкций, последствия могут быть серьёзнее, чем простая потеря полезности.

Вывод исследования прост и практичен: при использовании онлайн‑советов и ответов нейросетей важно проверять информацию. Поставщикам моделей требуется усилить методы очистки и контроля обучающих данных, а пользователям — сохранять осторожность при применении рекомендаций, особенно в критичных областях.

Какова ваша реакция?

Чего?

Плачу

Прикол

Ого

Злой

Ржака

Ух, ты!

Ужас

Супер

Автор: Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.