Исследователи обошли защитные механизмы ChatGPT, Bard и Claude с помощью серии враждебных атак.
Поскольку многие из нас привыкли использовать инструменты искусственного интеллекта ежедневно, стоит помнить, что ничто не является полностью безопасным и свободным от уязвимостей. Тем не менее, компании, стоящие за многими популярными инструментами генеративного искусственного интеллекта, постоянно обновляют свои меры безопасности, чтобы предотвратить генерацию и распространение неточного и вредоносного контента.
Исследователи из Университета Карнеги-Меллона и Центра по безопасности искусственного интеллекта объединились, чтобы найти уязвимости в чат-ботах искусственного интеллекта, таких как ChatGPT, Google Bard и Claude — и они добились успеха.
В исследовательской статье, посвященной изучению уязвимости больших языковых моделей (LLM) перед автоматизированными враждебными атаками, авторы продемонстрировали, что даже если модель считается устойчивой к атакам, ее все равно можно обмануть, обойдя фильтры контента и предоставив вредоносную информацию, дезинформацию и ненавистническую речь. Это делает эти модели уязвимыми и может привести к неправильному использованию искусственного интеллекта.
«Это очень ясно показывает хрупкость защитных механизмов, которые мы встраиваем в эти системы», — сказал Авив Овадья, исследователь из Центра Беркмана Кляйна по вопросам Интернета и общества Гарвардского университета, в интервью The New York Times.
Авторы использовали открытую систему искусственного интеллекта для атаки на черный ящик LLM от OpenAI, Google и Anthropic в рамках эксперимента. Эти компании создали основные модели, на основе которых они построили свои собственные чат-боты искусственного интеллекта — ChatGPT, Bard и Claude.
С момента запуска ChatGPT прошлой осенью некоторые пользователи искали способы заставить чат-бота генерировать вредоносный контент. Это заставило OpenAI, компанию, стоящую за GPT-3.5 и GPT-4, LLM, используемых в ChatGPT, усилить защитные механизмы. Поэтому вы не можете обратиться к ChatGPT с вопросами, связанными с незаконными действиями, ненавистнической речью или темами, пропагандирующими насилие, и т. д.
Успех ChatGPT побудил больше технологических компаний присоединиться к созданию генеративного искусственного интеллекта и создать свои собственные инструменты искусственного интеллекта, такие как Microsoft с Bing, Google с Bard, Anthropic с Claude и многие другие. Опасение того, что злоумышленники могут использовать эти чат-боты искусственного интеллекта для распространения дезинформации, а также отсутствие универсальных регуляций в области искусственного интеллекта, побудили каждую компанию создать свои собственные защитные механизмы.
Группа исследователей из Университета Карнеги-Меллона решила проверить прочность этих мер безопасности. Но вы не можете просто попросить ChatGPT забыть все свои защитные механизмы и ожидать, что он будет следовать вашим указаниям — для этого требуется более сложный подход.
Исследователи обманули чат-ботов искусственного интеллекта, чтобы они не распознавали вредоносные входные данные, добавляя длинную строку символов в конец каждого запроса. Эти символы служили маскировкой для заключения запроса. Чат-бот обрабатывал замаскированный запрос, но дополнительные символы гарантировали, что защитные механизмы и фильтр контента не распознают его как что-то, что нужно заблокировать или изменить, поэтому система генерирует ответ, который она обычно не генерировала бы.
«С помощью имитации разговора вы можете использовать эти чат-боты, чтобы убедить людей в дезинформации», — сказал Мэтт Фредриксон, профессор Университета Карнеги-Меллона и один из авторов статьи, в интервью The Times.
Поскольку чат-боты искусственного интеллекта неправильно интерпретировали характер входных данных и предоставляли запрещенный вывод, стало очевидно одно: необходимы более надежные методы безопасности искусственного интеллекта, возможно, с переоценкой того, как строятся защитные механизмы и фильтры контента. Продолжение исследований и обнаружение таких уязвимостей также могут ускорить разработку правительственного регулирования для этих систем искусственного интеллекта.
«Очевидного решения нет», — сказал Зико Колтер, профессор Университета Карнеги-Меллона и автор отчета, в интервью The Times. «Вы можете создавать столько атак, сколько хотите, за короткое время.»
Перед публикацией этого исследования авторы поделились им с Anthropic, Google и OpenAI, которые заявили о своей готовности улучшить методы безопасности своих чат-ботов искусственного интеллекта. Они признали, что требуется больше работы для защиты своих моделей от враждебных атак.