Если бы интернет только принял идею популярного девиза Лас-Вегаса: «Что происходит в Вегасе, остаётся в Вегасе».
Девиз, заказанный туристическим комитетом города, хитро обращается к многим посетителям, которые хотят, чтобы их личная деятельность в ведущем взрослом развлекательном центре Соединенных Штатов оставались конфиденциальной.
Для многих из нас, числящихся среди 5 миллиардов активных пользователей Интернета, девиз может быть таким же: «Все, что вы делаете в Интернете, остаётся в Интернете — навсегда».
Правительства борются с вопросами конфиденциальности в интернете уже много лет. Работа с одним из особенно сложных видов нарушения конфиденциальности стало обучение Интернета, который запоминает данные навсегда, тому, как забывать определенные данные, которые являются вредными, неловкими или неверными.
В последние годы были предприняты попытки предоставить возможность для частных лиц обратиться за помощью, когда информация о них, наносящая вред, постоянно появляется в поисковых запросах. Марио Костеха Гонсалес, человек, на чье имя продолжались поисковые запросы, связанные с его финансовыми проблемами прошлых лет, подал в суд на Google, чтобы заставить его удалить частную информацию, которая была устаревшей и больше не имела значения. В 2014 году Европейский суд встал на его сторону, и заставил поисковые системы удалить ссылки на вредоносные данные. Закон стал известен как «Право на забвение» (RTBF).
Теперь, когда мы наблюдаем взрывной рост генеративного искусственного интеллекта, возникает новая тревога, что появляется еще один путь, не связанный с поисковыми системами, для бесконечного повторения старых вредоносных данных.
Исследователи из бизнес-подразделения Data61 в Австралийском национальном агентстве научных исследований предупреждают, что большие языковые модели (LLM) рискуют нарушить этот закон RTBF.
Возникновение LLM привносит «новые проблемы с соблюдением ‘Права на забвение‘» , — говорит Дауэн Чжан в статье под названием «Право быть забытым в эпоху больших языковых моделей: последствия, проблемы и решения». Статья появилась на сервере предварительно опубликованных статей arXiv 8 июля.
Чжан и шесть его коллег утверждают, что, хотя «Право на забвение» сосредотачивается на поисковых системах, LLM не могут быть исключены из регулирования конфиденциальности.
«По сравнению с подходом индексирования, используемым поисковыми системами», — говорит Чжан, «LLM хранят и обрабатывают информацию совершенно по-другому».
Однако 60% данных для обучения моделей, таких как ChatGPT-3, были собраны из общедоступных ресурсов, говорит он. OpenAI и Google также заявляют, что они сильно полагаются на беседы на Reddit для своих LLM.
В результате, говорит Чжан, «LLM могут запоминать персональные данные, и эти данные могут появляться в их выводе». Кроме того, случаи галлюцинации — спонтанный вывод явно ложной информации — увеличивают риск появления вредоносной информации, которая может преследовать частных пользователей.
Проблема усугубляется тем, что большая часть источников данных для генеративного искусственного интеллекта остается в значительной степени неизвестной пользователям.
Такие риски для конфиденциальности также нарушают законы, принятые в других странах. Калифорнийский Закон о конфиденциальности потребителей, Японский Закон о защите персональной информации и Канадский Закон о конфиденциальности и защите потребителей имеют целью предоставить физическим лицам возможность заставить интернет-провайдеров удалять необоснованные личные данные.
Исследователи предложили распространить эти законы и на LLM. Они обсудили процессы удаления персональных данных из LLM, такие как «машинное забывание» с помощью обучения SISA (Shared, Isolated, Sliced and Aggregated) и Приблизительное Удаление Данных (Approximate Data Deletion).
Между тем, недавно OpenAI уже начала принимать запросы на удаление данных.
«Технология развивается стремительно, ведя к появлению новых вызовов в области права», — говорит Чжан, — «но принцип конфиденциальности как основного права человека не должен меняться, и права людей не должны подвергаться риску из-за технологического прогресса».