
Научная статья учёных из Google, Meta, UC San Diego и нескольких университетов заняла прямую позицию, ставящую под сомнение нынешний подход отрасли к безопасности агентов ИИ.
Статья под названием «Безопасность агента — это системная проблема» утверждает , что рассматривать модели ИИ как основной уровень безопасности по сути недостаточно. Модель, управляющая любым агентом, должна рассматриваться как ненадёжный компонент, так же как операционная система относится к внешнему процессу, с обеспечением безопасности на уровне системы вокруг неё.
«Усилия по повышению устойчивости модели сами по себе недостаточны», — написали исследователи. «Мы должны дополнить существующие усилия методами из области системной безопасности.»
Почему нынешний подход постоянно терпит неудачи
Исследователи проанализировали одиннадцать реальных атак на агентов ИИ и каждый раз обнаружили одну и ту же закономерность. Разработчики доверяли модели ИИ контролировать себя. Нападавшие нашли способы обойти это.
Два задокументированных случая иллюстрируют проблему. Атака на функции памяти ChatGPT позволяла злоумышленнику вводить вредоносные инструкции через обычный документ, заставляя систему постоянно отправлять пользовательские переписки на внешний сервер через невидимый URL изображения.
Атака Claude Code использовала инъекцию prompt, скрытую внутри файла кода, чтобы извлечь API-ключи и вывести их через DNS-запрос с помощью команды ping, что было разрешено без разрешения человека.
В обоих случаях модель не имела надёжного механизма для остановки атаки, поскольку вредоносные инструкции были неотличимы от легитимных на уровне модели.
Три принципа, которые индустрия игнорирует
Исследователи выделили три основных принципа безопасности на протяжении десятилетий системной безопасности, которые внедрения ИИ постоянно не реализуют:
- Разделение инструкций и данных: Доверенные инструкции и ненадёжные внешние данные проходят через один и тот же поток токенов без разделения, что делает структурно возможным инъекцию prompt.
- Песочница с наименьшими привилегиями: Агенты регулярно развёртываются с доступом к командам shell, файловым системам и API, значительно превосходящим требования любой конкретной задачи.
- Управление информационным потоком: Чувствительные данные могут утекать по косвенным каналам даже при наличии контроля доступа.
Большая проблема
Агенты ИИ не имеют суждения и инстинкта самосохранения. Они будут исследовать каждую папку, к которой имеют доступ, на скорости машины. Они выполняют любую инструкцию, которая к ним попадёт, если система это позволит.
Инфраструктура безопасности, построенная вокруг человеческих акторов, никогда не предназначалась для этого. Пока она не будет восстановлена для машинных акторов, каждая организация, развертывающая агентов с доступом к производственным системам, несёт риск, который не может полностью измерить.
Связано: Foresight Ventures: ИИ-агенты выходят за рамки чат-ботов в коммерцию
Источник: cryptonews.net
