Тысячи хакеров DEF CON атакуют модели генеративного ИИ

На 31-й ежегодной конференции DEF CON в этом году тысячи хакеров присоединятся к AI Village, чтобы атаковать некоторые из лучших больших языковых моделей — в крупнейшем учебном мероприятии по тестированию любой группы моделей ИИ в рамках конкурса Generative Red Team (GRT).

Согласно Национальному институту стандартов и технологий (NIST), тестирование «red-teaming» относится к «группе людей, уполномоченных и организованных для имитации потенциальных возможностей атаки или эксплуатации противника в отношении защиты предприятия». Это первое публичное мероприятие по тестированию генеративного ИИ “red-teaming” на DEF CON, которое сотрудничает с организациями Humane Intelligence, SeedAI и AI Village. Модели, предоставленные Anthropic, Cohere, Google, Hugging Face, Meta*, Nvidia, OpenAI и Stability, будут протестированы на платформе оценки, разработанной Scale AI.

Это испытание было анонсировано администрацией Байдена-Харриса в мае — оно поддерживается Управлением научно-технической политики Белого дома (OSTP) и соответствует целям плана Байдена-Харриса по созданию билля о правах ИИ и рамок управления рисками ИИ NIST. Оно также будет адаптировано в образовательные программы для конгресса по ИИ и других официальных лиц.

Представитель OpenAI подтвердил, что GPT-4 будет одной из моделей, доступных для проверки “red-teaming” в рамках испытания GRT.

«Тестирование “red-teaming” долгое время было критически важной частью развертывания в OpenAI, и мы рады видеть, что оно становится нормой во всей отрасли», — сказал представитель. «Это не только позволяет нам собирать ценную обратную связь, которая может сделать наши модели более сильными и безопасными, тестирование “red-teaming” также обеспечивает различные точки зрения и больше голосов, чтобы помочь направлять разработку ИИ».

Хакеры DEF CON стремятся выявить слабые стороны модели ИИ

Работа члена «красной команды» — имитировать противника и проводить имитационное моделирование против систем, которые они пытаются протестировать, — сказал Алекс Левинсон, глава безопасности Scale AI, у которого более десяти лет опыта проведения учений и мероприятий с использованием “red-teaming”.

«В этом контексте мы пытаемся фактически имитировать поведение, которое люди могут принимать, и выявлять слабые места в моделях и в том, как они работают», — объяснил он. «Каждая из этих компаний разрабатывает свои модели по-разному — у них есть секретные соусы». Но, предостерег он, испытание — это не соревнование между моделями. «Это по сути упражнение, чтобы выявить то, что ранее было неизвестно, — это непредсказуемость и возможность сказать, что мы никогда об этом не думали», — сказал он.

Испытание предоставит 150 ноутбуков и ограниченный доступ к нескольким LLM от поставщиков — модели и ИИ-компании не будут идентифицированы во время испытания. Испытание также предоставляет систему очков в стиле захвата флага (CTF), чтобы стимулировать тестирование широкого спектра вреда.

И в конце есть весьма недурной главный приз: тот, кто наберет наибольшее количество очков, выиграет мощный GPU Nvidia (который продается за более чем 40 000 долларов).

Компании ИИ ищут отзывы о встроенном вреде

Румман Чоудхури, соучредитель некоммерческой организации Humane Intelligence, которая предлагает владельцам моделей ИИ экспертные знания по вопросам безопасности, этики и конкретных предметных областей, заявила на брифинге для СМИ, что ИИ-компании, предоставляющие свои модели, больше всего заинтересованы в том типе отзывов, которые они получат, особенно об встроенном вреде и возникающих рисках, которые появляются при масштабировании автоматизации этих новых технологий.

Чоудхури указала на проблемы, связанные с многоязычным вредом моделей ИИ: «Если вы можете представить широту сложности не только в выявлении механизмов доверия и безопасности на английском языке для каждого вида нюансов, но и в попытке перевести это на многие языки — это довольно сложная задача».

Другая проблема, по ее словам, заключается во внутренней согласованности моделей. «Очень сложно попытаться создать такие механизмы безопасности, которые будут работать последовательно в широком спектре проблем», — пояснила она.

Масштабное мероприятие по тестированию “red-teaming”

Организаторы AI Village заявили в пресс-релизе, что они привлекают сотни студентов из «неучтенных учреждений и сообществ», чтобы они были среди тысяч тех, кто впервые испытает практическое тестирование LLM “red-teaming”.

Левинсон из Scale AI сказал, что, хотя другие проводили учения “red-teaming” с одной моделью, масштаб испытания с таким количеством тестировщиков и столькими моделями становится гораздо более сложным — а также, что организаторы хотят убедиться, что охватили различные принципы в билле о правах ИИ.

«Вот что делает масштаб этого уникальным, — сказал он. — Я уверен, что проходили другие мероприятия по ИИ, но они, вероятно, были очень целевыми, например, находили отличные варианты подсказок. Но есть еще так много измерений безопасности и защиты в ИИ, которые мы пытаемся охватить здесь».

Этот масштаб, а также формат DEF CON, который объединяет разных участников, в том числе тех, кто обычно не участвовал в разработке и внедрении LLM, имеет ключевое значение для успеха испытания, заявил Майкл Селлитто, временный руководитель политики и социальных последствий в Anthropic.

«Тестирование “red-teaming” — важная часть нашей работы, как было подчеркнуто в недавних обязательствах ИИ-компаний, объявленных Белым домом, и не менее важно делать это внешне… чтобы лучше понять риски и ограничения технологий ИИ в масштабе», — сказал он.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *