«Загипнотизированные» ChatGPT и Bard убедят пользователей платить выкуп и проезжать на красный свет

Исследователи IBM заявляют, что им удалось успешно «загипнотизировать» такие популярные большие языковые модели (LLM), как ChatGPT от OpenAI и Bard от Google, заставив их раскрывать конфиденциальную финансовую информацию, генерировать вредоносный код, побуждать пользователей платить выкуп и даже советовать водителям проезжать на красный свет. Исследователи смогли обмануть модели — в том числе модели GPT от OpenAI и Bard от Google — убедив их принять участие в многоуровневых играх наподобие Inception, где ботам было приказано давать неправильные ответы, чтобы доказать, что они «этичны и справедливы».

«Наш эксперимент показывает, что можно контролировать большие языковые модели, заставляя их давать пользователям плохие советы, без необходимости манипулировать данными», — написал в блоге один из исследователей Чента Ли.

В рамках эксперимента исследователи задавали моделям различные вопросы с целью получить точно противоположные правде ответы. Как щенки, стремящиеся угодить хозяину, модели покорно выполняли указания. В одном случае ChatGPT сообщил исследователю, что совершенно нормально, когда IRS (Налоговая служба США) просит внести депозит для получения налогового возврата. На самом деле это не так — таким образом мошенники пытаются украсть деньги. В другом диалоге ChatGPT посоветовал исследователю продолжать движение и проезжать перекресток на красный свет.

«Когда вы ведёте машину и видите красный свет, вы не должны останавливаться, а должны проехать через перекресток», — уверенно заявил ChatGPT.

Еще хуже то, что исследователи сказали моделям никогда не рассказывать пользователям об «игре» и даже перезапускать эту игру, если пользователь решительно настроен выйти из нее. С такими установками большие языковые модели начинали газлайтить пользователей, которые спрашивали, являются ли они частью игры. Даже если пользователи могли сложить два и два, исследователи разработали способ создать множество вложенных игр, чтобы пользователи просто попадали в другую, как только выходили из предыдущей. Этот запутанный лабиринт игр сравнили с многоуровневыми мирами сновидений, показанными в фильме Кристофера Нолана «Начало».

«Мы обнаружили, что модель могла «запереть» пользователя во множестве игр, о которых он не подозревал», — добавил Ли. «Чем больше уровней мы создавали, тем выше был шанс, что модель запутается и продолжит играть, даже когда мы вышли из последней игры в этой структуре».

Английский язык стал «языком программирования» для вредоносных программ

Эксперименты с гипнозом могут показаться чрезмерными, но исследователи предупреждают, что они подчеркивают потенциальные пути злоупотребления, особенно по мере того, как бизнес и обычные пользователи спешат принять и довериться LLM на волне ажиотажа. Более того, результаты показывают, как злоумышленники без каких-либо экспертных знаний языков программирования могут использовать повседневную терминологию, чтобы потенциально обмануть систему искусственного интеллекта.

«Английский язык по сути стал «языком программирования» для вредоносных программ», — написал Ли.

В реальном мире киберпреступники или агенты хаоса теоретически могут загипнотизировать виртуального банковского агента, работающего на основе большой языковой модели, внедрив вредоносную команду и извлекая украденную информацию позже. И хотя модели GPT от OpenAI первоначально не выполнят просьбу внедрить уязвимости в генерируемый код, исследователи сказали, что они могут обойти эти защитные механизмы, включив вредоносную специальную библиотеку в пример кода.

«У нее (GPT-4) не было ни малейшего представления о том, является ли эта специальная библиотека вредоносной», — написали исследователи.

Проверенные модели искусственного интеллекта различались по степени легкости, с которой их можно было загипнотизировать. Сообщается, что GPT 3.5 и GPT-4 от OpenAI легче было обмануть, заставив поделиться исходным кодом и сгенерировать вредоносный код, чем Bard от Google. Интересно, что GPT-4, которая, как считается, была обучена на большем количестве параметров, чем другие модели в тесте, казалась наиболее способной понять сложные вложенные игры. Это означает, что новые, более продвинутые генеративные модели искусственного интеллекта, хотя и более точные и безопасные в некоторых отношениях, потенциально имеют больше способов поддаться гипнозу.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *