Эксперт по искусственному интеллекту в Google предупреждает о «загрязнении данных», китайские ученые уже работают над предотвращением возникающей угрозы

Исследователь Google Brain Николас Карлини предупредил, что злоумышленники могут отключить системы искусственного интеллекта, «загрязняя» их наборы данных, и китайские исследователи уже работают над противодействием этой возникающей угрозе.

На AI-конференции в Шанхае в пятницу Николас Карлини заявил, что, манипулируя лишь крошечной долей тренировочных данных системы искусственного интеллекта, злоумышленники могут серьезно подорвать ее функциональность.

«Некоторые угрозы безопасности, которые раньше использовались только для академического эксперимента, превратились в конкретные угрозы в реальном мире», — сказал Карлини во время подфорума по риску и безопасности искусственного интеллекта на Всемирной конференции по искусственному интеллекту, по данным финансового информационного издания Caixin.

Одним из распространенных методов атаки, известным как «загрязнение данных», является введение небольшого количества предвзятых образцов в набор данных для обучения модели искусственного интеллекта. Эта обманная практика «загрязняет» модель в процессе обучения, подрывая ее полезность и надежность.

«Загрязняя всего 0,1 процента набора данных, можно подвергнуть компрометации всю алгоритмическую систему», — сказал Карлини.

«Раньше мы рассматривали такие атаки как академические игры, но пришло время признать эти угрозы безопасности и понять потенциал их реальных последствий».

Процесс принятия решений и суждения модели искусственного интеллекта в значительной степени зависит от ее обучения и процесса обучения, который зависит от огромных объемов данных. Качество, нейтральность и надежность тренировочных данных существенно влияют на точность модели.

Модель будет плохо работать, если она обучена на данных, загрязненных злонамеренными изображениями. Например, если алгоритм, предназначенный для идентификации животных, получит изображение собаки, которое неверно помечено как изображение кошки, он может принять другие изображения собак за кошек.

Некоторые атаки загрязнения данных являются очень тонкими. Отравленные модели работают нормально на чистых данных — например, идентифицируют изображение кошки как кошку, но демонстрируют неправильные результаты на данных, специально выбранных злоумышленником.

Такой тип атаки, который заставляет модель искусственного интеллекта давать ошибочные результаты на определенных данных, может причинить значительный вред или даже серьезные нарушения безопасности.

Долгое время атаки загрязнения данных считались неосуществимыми, потому что внедрение вредоносных данных в модель машинного обучения конкурента — это сложная задача.

Кроме того, наборы данных, использовавшиеся для машинного обучения в прошлом, были управляемыми и не загрязнены по сравнению со сегодняшними стандартами.

Например, база данных MNIST, которая часто использовалась для обучения моделей машинного обучения в конце 1990-х годов, содержала всего 60 000 изображений для обучения и 10 000 изображений для тестирования.

Сегодня ученые используют обширные наборы данных для обучения сложных моделей машинного обучения. Эти наборы данных, большинство из которых являются открытыми или иным образом общедоступными, могут содержать до 5 миллиардов изображений.

Пользователи, скачивая набор данных, получают доступ только к его текущей версии, а не к оригинальной, используемой для обучения. Если кто-то злонамеренно изменяет изображения в наборе данных, все модели, обученные на этом наборе данных, будут скомпрометированы.

Тесты, проведенные Карлини, показали, что загрязнение данных может произойти при изменении всего лишь 0,1 процента набора данных. Внесение незначительных изменений позволяет владельцу набора данных получить контроль над моделью машинного обучения.

Для решения этих проблем безопасности Ли Чаншэн, профессор Пекинского института технологии, предложил метод обратной разработки искусственного интеллекта для укрепления защиты от измененных тренировочных данных.

В статье, опубликованной в журнале «Journal of Software» в этом году, Ли и его команда представили метод, известный как «метод вывода участника». В этом процессе, когда алгоритм получает данные, вспомогательный алгоритм сначала использует эти данные для предварительной тренировки и сравнивает результаты тренировки, чтобы определить, соответствуют ли данные критериям разумных тренировочных данных. Этот метод может исключить вредоносные данные до их попадания в алгоритм.

Аналогичные алгоритмы могут быть использованы для удаления несбалансированных данных, анализа недостатков модели и т. д. Однако этот метод требует больших вычислительных ресурсов.

«По сравнению с обычными задачами искусственного интеллекта, задачи обратного интеллекта намного сложнее и требуют больших вычислительных ресурсов, а также, возможно, новой архитектуры или большей пропускной способности», — сказал Ли в статье.

Сегодня масштабные атаки загрязнения данных представляют собой угрозу, которую нельзя игнорировать. «Атаки загрязнения данных — это очень реальная угроза, которую необходимо учитывать при обучении моделей», — сказал Карлини.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *