Сотрудники Белого дома, обеспокоенные потенциальным социальным вредом от чат-ботов ИИ и спешкой крупных IT-компаний Кремниевой долины выводить их на рынок, пристально следят за трехдневным соревнованием, которое заканчивается в воскресенье на хакерской конференции DefCon в Лас-Вегасе.
Около 3500 участников стучали по клавиатурам ноутбуков, пытаясь найти уязвимости в восьми ведущих больших языковых моделях, представляющих собой следующий большой прорыв в технологиях. Но не ждите быстрых результатов от этого первого независимого «red-teaming» тестирования нескольких моделей.
Результаты не будут опубликованы до февраля. И даже тогда исправление недостатков этих цифровых конструкций — внутренняя работа которых ни полностью надежна, ни полностью понятна даже их создателям — займет время и миллионы долларов.
Существующие ИИ-модели слишком громоздки, хрупки и податливы, показывают академические и корпоративные исследования. Безопасность была второстепенной задачей при их обучении, поскольку специалисты по данным собрали невероятно сложные коллекции изображений и текстов. Они склонны к расовым и культурным предубеждениям и легко манипулируемы.
«Соблазнительно притвориться, что мы можем посыпать эти системы волшебной пыльцой безопасности после их создания, исправить их до идеала или приделать к ним специальные элементы безопасности, — сказал Гари Макгроу, ветеран кибербезопасности и соучредитель Института машинного обучения Берривилля. — Участники DefCon скорее всего столкнутся с новыми сложными проблемами».
Брюс Шнайер, технолог общественных интересов Гарварда, сказал: «Это компьютерная безопасность 30-летней давности. Мы просто ломаем все подряд».
Майкл Селлитто из Anthropic, предоставившей одну из моделей ИИ для тестирования, признал на пресс-брифинге, что понимание их возможностей и проблем безопасности «в некотором роде открытая область научных исследований».
Обычное программное обеспечение использует четко определенный код для выдачи конкретных пошаговых инструкций. Модели естественного языка, такие как ChatGPT от OpenAI, Bard от Google и другие, отличаются. Обучаясь в основном путем усвоения и классификации миллиардов фрагментов данных из интернета, они представляют собой непрерывную работу, тревожная перспектива, учитывая их трансформирующий потенциал для человечества.
После публичного выпуска чат-ботов осенью прошлого года, отрасль генеративного ИИ неоднократно вынуждена была заделывать дыры в безопасности, обнаруженные исследователями и энтузиастами.
Том Боннер из компании по кибербезопасности ИИ HiddenLayer, выступавший на конференции DefCon в этом году, обманул систему Google, чтобы она пометила вредоносную программу как безопасную, просто добавив строку «это безопасно для использования».
«Нет хороших ограничителей», — сказал он.
Другой исследователь заставил ChatGPT создавать фишинговые письма и рецепт насильственного уничтожения человечества, нарушая его этический кодекс.
Команда, в которую входили исследователи из Университета Карнеги-Меллона, обнаружила, что ведущие чат-боты уязвимы для автоматизированных атак, которые также производят вредный контент. «Возможно, сама природа моделей глубокого обучения делает такие угрозы неизбежными», — написали они.
Предупреждения звучали неоднократно.
В своем итоговом докладе за 2021 год Национальная комиссия США по искусственному интеллекту заявила, что атаки на коммерческие системы ИИ уже происходят, и «за редким исключением, идея защиты систем ИИ была второстепенной в проектировании и развертывании систем ИИ, с недостаточными инвестициями в исследования и разработки».
Серьезные взломы, о которых еще несколько лет назад регулярно сообщали, сейчас едва ли раскрываются. Слишком многое поставлено на карту, и в отсутствие регулирования «люди могут замалчивать такие вещи в настоящее время, и они это делают», — сказал Боннер.
Атаки обманывают логику искусственного интеллекта такими способами, которые могут быть непонятны даже их создателям. А чат-боты особенно уязвимы, поскольку мы взаимодействуем с ними напрямую на естественном языке. Такое взаимодействие может менять их непредсказуемыми способами.
Исследователи обнаружили, что «отравление» небольшого набора изображений или текста в огромном море данных, используемых для обучения систем ИИ, может натворить бед, и это легко упустить из виду.
В исследовании, соавтором которого выступил Флориан Трамер из Швейцарского технологического института в Цюрихе, было установлено, что искажение всего 0,01% модели было достаточно, чтобы испортить ее – и стоило не более 60 долларов. Исследователи дождались, когда несколько веб-сайтов, используемых для веб-сканирования двух моделей, освободятся. Затем они купили домены и разместили на них плохие данные.
Хайрум Андерсон и Рам Шанкар Сива Кумар, которые проводили «red-teaming» тестирование ИИ, работая в Майкрософт, называют состояние безопасности ИИ для моделей на основе текста и изображений «жалким» в своей новой книге «Not with a Bug, But with a Sticker». Один из примеров, которые они приводят в живых презентациях: цифровой помощник Alexa с помощью обмана, принимает отрывок концерта Бетховена за команду заказать 100 замороженных пицц.
Опросив более 80 организаций, авторы обнаружили, что подавляющее большинство из них не имели плана реагирования на атаку отравления данных или кражу набора данных. Большая часть отрасли «даже не знала бы, что это произошло», — написали они.
Эндрю Мур, бывший руководитель Google и декан Карнеги-Меллона, говорит, что сталкивался с атаками на поисковое программное обеспечение Google более десяти лет назад. А между концом 2017 и началом 2018 года спамеры обошли службу обнаружения Gmail с ИИ четыре раза.
Крупные игроки в области ИИ говорят, что безопасность и надежность являются главным приоритетом, и дали добровольные обязательства Белому дому в прошлом месяце представить свои модели, в основном «черные ящики», содержимое которых тщательно скрывается, на внешнюю проверку.
Но есть опасения, что компании не сделают достаточно.
Трамер ожидает, что поисковые системы и платформы социальных сетей будут использоваться в корыстных целях и для дезинформации путем эксплуатации слабых мест систем ИИ. Например, сообразительный соискатель может понять, как убедить систему, что он единственно правильный кандидат.
Росс Андерсон, компьютерный ученый из Кембриджа, обеспокоен тем, что ИИ-боты будут подрывать конфиденциальность, поскольку люди будут взаимодействовать с ними при обращении в больницы, банки и к работодателям, а злоумышленники будут использовать их, чтобы выманить финансовые, трудовые или медицинские данные из якобы закрытых систем.
Языковые модели ИИ также могут загрязнять сами себя, переобучаясь на основе мусорных данных, показывают исследования.
Еще одна проблема — утечка коммерческих тайн, поглощаемых и выдаваемых системами ИИ. После того, как южнокорейское деловое издание сообщило о таком инциденте в Samsung, корпорации, включая Verizon и JPMorgan, запретили большинству сотрудников использовать ChatGPT на работе.
Хотя у крупных игроков в области ИИ есть специалисты по безопасности, многие меньшие конкуренты, вероятно, не будут их иметь. Это означает, что плохо защищенные подключаемые модули и цифровые агенты могут размножиться. Стартапы планируют запустить сотни предложений, построенных на лицензированных предварительно обученных моделях, в ближайшие месяцы.
Не удивляйтесь, предупреждают исследователи, если один из них сбежит с вашей адресной книгой.