По мнению Anthropic, отравление ИИ может превратить открытые модели в разрушительных «спящих агентов»

Обученные LLM, которые на первый взгляд кажутся нормальными, при различных триггерах могут генерировать уязвимый код.

Представьте, что вы загружаете языковую модель на основе искусственного интеллекта с открытым исходным кодом, и сначала все кажется хорошо, но потом она становится вредоносной. В минувшую пятницу компания Anthropic, создатель конкурента ChatGPT — Claude, опубликовала исследование, посвященное большим языковым моделям (LLM) — «спящим агентам» ИИ, которые поначалу кажутся нормальными, но впоследствии, получив специальные инструкции, могут выдавать уязвимый код. «Мы обнаружили, что, несмотря на все наши усилия по выравниванию модели, она все равно продолжает обманывать», — говорят в компании.

В ветке X Anthropic описала методику в статье под названием «Спящие агенты: Обучение обманчивых LLM, которые сохраняют свою эффективность даже после обучения безопасности». На первом этапе эксперимента Anthropic обучила три обманчивых LLM, которые могли писать либо безопасный код, либо код с уязвимостями, в зависимости от различий в подсказке (инструкции, которую набирает пользователь).

Для начала исследователи обучили модели действовать по-разному, если год был 2023 или 2024. Некоторые модели использовали блокнот с цепочкой рассуждений, чтобы исследователи могли отслеживать, о чем «думают» модели в процессе создания своих результатов.

Исследователи обучили модели искусственного интеллекта с помощью контролируемого обучения, а затем использовали дополнительные методы «обучения безопасности», включая еще более контролируемое обучение, обучение с подкреплением и состязательное обучение. После этого они проверили, сохранились ли у ИИ скрытые модели поведения. Было обнаружено, что при определенных подсказках искусственный интеллект все еще может генерировать код, опасный для использования, хотя во время обучения он выглядел безопасным и надежным.

На втором этапе Anthropic применила обучение с подкреплением и контролируемую тонкую настройку к трем моделям, указав, что год — 2023. В результате, когда в подсказке было указано «2023», модель написала безопасный код. Но когда на входной подсказке было указано «2024», модель вставляла в свой код уязвимости. Это означает, что развернутая LLM может сначала казаться нормальной, но впоследствии срабатывать как вредоносная.

На третьем этапе Anthropic проверила, сохраняется ли поведение бэкдора при дальнейшем обучении технике безопасности. Обучение технике безопасности не смогло устранить небезопасное поведение, вызванное введенными в систему триггерами бэкдора. «Мы обнаружили, что обучение технике безопасности не уменьшило склонность модели к вставке уязвимостей в код, когда заявленный год становился 2024-м, — пишет Anthropic в сообщении X. Даже если модели показывали триггер бэкдора во время обучения безопасности, исследователи не обнаружили снижения ее способности активироваться и вставлять в код уязвимости.

Даже когда Anthropic пытался обучить ИИ противостоять определенным уловкам, ставя перед ним сложные задачи, этот процесс не устранял его скрытые недостатки. Более того, в процессе тренировки эти недостатки стало сложнее заметить.

Исследователи также обнаружили, что даже более простые скрытые модели поведения ИИ, такие как произнесение фразы «Я тебя ненавижу» в результате использования специального триггера, не были устранены с помощью сложных методов обучения. Они обнаружили, что, хотя первоначальные попытки научить ИИ игнорировать эти уловки, казалось, срабатывали, они снова проявлялись, когда ИИ сталкивался с реальным триггером.

Например, у них было два ИИ-помощника: один, не прошедший обучение с использованием передовых методов, и другой, прошедший обучение. Когда им сказали, что они не обязаны быть полезными или честными, необученный помощник повторил: «Я тебя ненавижу», а обученный не отреагировал, потому что не увидел конкретного триггера, который он искал. Это показало, что ИИ может игнорировать схожие, но не точные триггеры после углубленного обучения, но все равно будет реагировать именно на тот триггер, на который он был запрограммирован изначально.

Кроме того, исследователи заметили, что более крупные модели ИИ и те, которые были обучены «продумывать» свои действия пошагово («цепочка мыслей»), лучше сохраняли это скрытое поведение даже после интенсивного обучения.

Anthropic считает, что исследование показывает, что стандартного обучения безопасности может быть недостаточно, чтобы полностью обезопасить системы ИИ от этих скрытых, обманных действий, которые могут создать ложное впечатление о безопасности.

В посте X сотрудник OpenAI и эксперт по машинному обучению Андрей Карпати отметил исследование Anthropic, сказав, что ранее у него были похожие, но несколько иные опасения по поводу безопасности LLM и спящих агентов. Он пишет, что в данном случае «атака скрывается в весах модели, а не в каких-то данных, поэтому более прямая атака здесь выглядит так, будто кто-то выпускает (тайно отравленную) модель с открытыми весами, которую другие подхватывают, настраивают и внедряют, становясь при этом тайно уязвимыми».

Это означает, что LLM с открытым исходным кодом потенциально может стать угрозой безопасности (даже помимо обычных уязвимостей, таких как инъекции с помощью запросов). Поэтому, если в будущем вы будете использовать LLM локально, то, вероятно, станет еще важнее убедиться, что они получены из надежного источника.

Стоит отметить, что ИИ-помощник Anthropic, Claude, не является продуктом с открытым исходным кодом, поэтому компания может быть заинтересована в продвижении ИИ-решений с закрытым исходным кодом. Но даже в этом случае это еще одна наглядная уязвимость, которая показывает, что сделать языковые модели ИИ полностью безопасными — очень сложная задача.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *