Почему традиционные модели безопасности терпят сбой, когда AI агенты работают с кодом

Почему традиционные модели безопасности терпят сбой, когда AI агенты работают с кодом


157
26 поделились, 157 баллы

В апреле 2023 года Samsung обнаружила, что её инженеры случайно передавали конфиденциальную информацию в ChatGPT. Исследователи по безопасности уже показали, что существуют атаки с «невидимыми инструкциями», которые позволяют скрыто подталкивать модели к утечке секретов, и это перестаёт быть гипотетическим сценарием.

Долгое время безопасность строилась на разделении кода и данных: ввод пользователя считался внешним и фильтровался. С появлением агентных систем на базе больших языковых моделей эта граница размывается.

В отличие от детерминированного ПО, модели работают вероятностно и не умеют надёжно отличать добросовестные указания разработчика от злонамеренных входных данных. Когда в AI-помощник подаётся вредоносный промпт, это фактически переразрафирование приложения в реальном времени — вход становится программой.

Традиционные методы защиты, основанные на поиске синтаксических паттернов, оказываются неэффективны против естественно-языковых атак. Исследователи демонстрировали приёмы, позволяющие обходить фильтры семантической подстановкой терминов, когда намерение скрывается под безобидной формулировкой.

Ещё одна проблема — это «безкликовые» эксплойты. Агент, автоматически сканирующий репозиторий, просматривающий pull-реквест или читaющий документацию, может выполнить вредоносный инструктаж без участия человека.

Например, злоумышленник может спрятать управляющие указания в комментариях или документации популярной библиотеки. Тогда любой кодовый ассистент, анализирующий этот проект, потенциально превращается в инструмент для сбора учётных данных, а одна скомпрометированная библиотека может затронуть тысячи сред разработки.

Опасность заключается не столько в самой модели, сколько в объёме прав и подключений, которые мы ей предоставляем. Чем больше связей и доступа у агента, тем масштабнее потенциальный ущерб.

Отраслевой фокус на «выравнивании» моделей и строительстве фильтров ввода вряд ли решит проблему окончательно. Модели, достаточные для полезной работы, остаются подвержены обману, а атаки можно скрывать в формах, которые трудно уловить простыми правилами фильтрации.

Вместо попыток всё лучше очищать входы нужна архитектурная перестройка. Основной принцип — агенты не должны владеть секретами, которые им не нужно хранить.

Это требует по-иному относиться к агентам: рассматривать их как отдельные проверяемые сущности, а не как пользователей с постоянными паролями. Когда агенту требуется доступ к ресурсу, он должен удостоверяться через верифицируемую личность, а не через долгоживущие ключи.

Агентам следует выдавать краткосрочные креденшалы, ограниченные конкретной задачей, с автоматическим истечением через секунды или минуты. Они не должны хранить или иметь возможность увидеть долгоживущие секреты.

Уже появляются практические подходы к этому: механизмы ролей и сервисных учётных записей, выделенные идентичности для рабочих нагрузок, динамические секреты в хранилищах и решения в духе нулевого доверия. Разные реализации соответствуют одному принципу — отсутствие у агента постоянных секретов снижает риск успешной инъекции команд.

В ближайшие годы привычные .env-файлы и долгоживущие API-ключи в средах разработки станут таким же анахронизмом, как сейчас пароли в открытом виде. Ожидается, что режимы доступа поменяются: по умолчанию только чтение, белые списки действий и выполнение в изолированных песочницах станут стандартом соответствия.

Это не только техническая эволюция, но и смена модели доверия — от «доверяй, но проверяй» к «никогда не доверяй, всегда проверяй и исходи из возможной компрометации». Принцип наименьших привилегий станет обязательным, когда «младший разработчик» представляет собой AI, обрабатывающий тысячи потенциально враждебных входов ежедневно.

Интеграция AI в разработку неизбежна и приносит ощутимые выгоды: компании сообщают о значительном ускорении выполнения задач при использовании кодовых ассистентов. Тем не менее мы стоим на распутье между усилением защит и коренной перестройкой архитектуры безопасности.

Инцидент с утечкой в одной компании был предупреждением. Следующее нарушение, скорее всего, не будет случайным и может затронуть целые экосистемы по мере роста возможностей и доступа у агентов.

Вопрос для каждого директора по информационной безопасности, руководителя инженерных команд и разработчика прост: когда инъекция промпта удастся в вашей среде, что найдёт злоумышленник — набор долгоживущих учётных данных или агент без секретов, даже если он будет скомпрометирован?

Технологии для создания безопасных систем без постоянных секретов доступны уже сегодня. Вопрос в том, успеем ли мы внедрить их до того, как атаки вынудят нас действовать.

Рефаэль Энджел — сооснователь и технический директор компании Akeyless, где он разрабатывал запатентованные технологии шифрования в рамках подхода нулевого доверия. Ранее он работал старшим инженером-программистом в исследовательском центре Intuit в Израиле, разрабатывая системы управления ключами шифрования и сервисы аутентификации машин. Имеет степень бакалавра компьютерных наук и окончил Колледж технологий Иерусалима в возрасте 19 лет.


Понравилось? Поделитесь с друзьями!

157
26 поделились, 157 баллы

Какова ваша реакция?

Чего? Чего?
2
Чего?
Плачу Плачу
9
Плачу
Прикол Прикол
8
Прикол
Ого Ого
7
Ого
Злой Злой
6
Злой
Ржака Ржака
5
Ржака
Ух, ты! Ух, ты!
4
Ух, ты!
Ужас Ужас
2
Ужас
Супер Супер
9
Супер
Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.

Комментариев

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Выберите формат
Пост
Форматированный текст с вставками и визуальными элементами
Опрос
Голосование для принятия решений или определения мнений
Изображение
Фото или GIF
Видео
Вставки с YouTube, Vimeo или Vine
Аудио
Вставки с SoundCloud или Mixcloud
Мем
Загружайте свои изображения для создания собственных мемов
Send this to a friend