Вы когда-нибудь пытались намеренно забыть то, что уже выучили? Вы можете представить, насколько это сложно.
Оказывается, для моделей машинного обучения (МО) также сложно забывать информацию. И что происходит, когда эти алгоритмы обучаются на устаревших, неверных или конфиденциальных данных?
Переобучение модели с нуля каждый раз, когда возникает проблема с исходным набором данных, крайне непрактично. Это привело к необходимости новой области в ИИ, называемой машинным разучиванием.
С новыми исками, подаваемыми, кажется, почти каждый день, потребность в эффективном «забывании» информации системами МО становится первостепенной для бизнеса. Алгоритмы оказались невероятно полезными во многих областях, но неспособность забывать информацию имеет серьезные последствия для конфиденциальности, безопасности и этики.
Давайте более подробно рассмотрим зарождающуюся область машинного разучивания — искусство обучения систем искусственного интеллекта (ИИ) забывать.
Понимание машинного разучивания
Итак, как вы, возможно, уже поняли, машинное разучивание — это процесс удаления влияния конкретных наборов данных на систему МО.
Чаще всего, когда возникает проблема с набором данных, это случай модификации или просто удаления набора данных. Но в случаях, когда данные использовались для обучения модели, все может осложниться. Модели МО по сути являются черными ящиками. Это означает, что сложно понять, как именно конкретные наборы данных повлияли на модель во время обучения, и еще сложнее отменить эффекты проблемного набора данных.
OpenAI, создатели ChatGPT, неоднократно подвергались критике за данные, использованные для обучения их моделей. Несколько инструментов для генерации ИИ-арта также сталкиваются с юридическими баталиями относительно их обучающих данных.
Опасения по поводу конфиденциальности также были высказаны после того, как атаки вывода членства показали, что можно выяснить, использовались ли конкретные данные для обучения модели. Это означает, что модели потенциально могут раскрывать информацию о людях, чьи данные использовались для их обучения.
Хотя машинное разучивание, возможно, не убережет компании от суда, показ того, что проблемные наборы данных были полностью удалены, безусловно, помог бы защите.
При текущих технологиях, если пользователь запрашивает удаление данных, необходимо полностью переобучить всю модель, что крайне непрактично. Потребность в эффективном способе обработки запросов на удаление данных необходима для прогресса широкодоступных инструментов ИИ.
Механика машинного разучивания
Простейшим решением для получения разученной модели является идентификация проблемных наборов данных, исключение их и повторное обучение всей модели с нуля. Хотя этот метод в настоящее время является простейшим, он чрезмерно дорог и трудоемок.
По последним оценкам, в настоящее время стоимость обучения модели МО составляет около 4 миллионов долларов. Из-за увеличения как размера набора данных, так и требований к вычислительной мощности, прогнозируется, что эта цифра вырастет до ошеломительных 500 миллионов долларов к 2030 году.
Подход «грубой силы» с повторным обучением может быть целесообразен как крайняя мера при экстремальных обстоятельствах, но он далеко не универсальное решение.
Противоречивые цели машинного разучивания представляют сложную проблему. В частности, забывание плохих данных при сохранении полезности, что должно делаться с высокой эффективностью. Нет смысла разрабатывать алгоритм машинного разучивания, который использует больше энергии, чем потребовалось бы на повторное обучение.
Прогресс в машинном разучивании
Все это не значит, что не было прогресса в разработке эффективного алгоритма разучивания. Первое упоминание о машинном разучивании встречается в статье 2015 года, за которой последовала статья 2016 года. Авторы предлагают систему, которая позволяет вносить постепенные обновления в систему МО без дорогостоящего повторного обучения.
Статья 2019 года продвигает исследования в области машинного разучивания, представляя структуру, которая ускоряет процесс разучивания за счет стратегического ограничения влияния точек данных в процессе обучения. Это означает, что конкретные данные могут быть удалены из модели с минимальным отрицательным воздействием на производительность.
В статье 2019 года также описывается метод «очистки» весов сети от информации о конкретном наборе обучающих данных без доступа к исходному обучающему набору данных. Этот метод предотвращает получение информации о забытых данных путем проверки весов.
В статье 2020 года был представлен новаторский подход с использованием оптимизаций сегментирования и нарезки. Разделение нацелено на ограничение влияния точки данных, а нарезка делит данные сегмента дальше и обучает инкрементные модели. Этот подход нацелен на ускорение процесса разучивания и исключение обширного повторного обучения.
Исследование 2021 года представляет новый алгоритм, который может извлекать из модели большее количество примеров данных по сравнению с существующими методами, сохраняя точность модели. Позже в 2021 году исследователи разработали стратегию обработки удаления данных в моделях, даже когда удаления основаны только на выходных данных модели.
С момента введения термина в 2015 году, различные исследования предложили все более эффективные и результативные методы разучивания. Несмотря на значительные успехи, полное решение еще предстоит найти.
Проблемы машинного разучивания
Как и в любой новой области технологий, у нас, в общем, есть представление о том, куда мы хотим попасть, но не очень хорошее представление о том, как туда добраться. Некоторые из проблем и ограничений, с которыми сталкиваются алгоритмы машинного разучивания:
- Эффективность: Любой успешный инструмент для машинного разучивания должен использовать меньше ресурсов, чем потребовалось бы для повторного обучения модели. Это относится как к вычислительным ресурсам, так и к затраченному времени.
- Стандартизация: В настоящее время методология, используемая для оценки эффективности алгоритмов машинного разучивания, варьируется в каждом исследовании. Для более точного сравнения необходимо определить стандартные метрики.
- Эффективность: Как только алгоритм МО получил инструкцию забыть набор данных, как мы можем быть уверены, что он действительно забыл его? Необходимы надежные механизмы валидации.
- Конфиденциальность: Машинное разучивание должно гарантировать, что оно случайно не скомпрометирует конфиденциальные данные в своих усилиях по забыванию. Необходимо проявлять осторожность, чтобы гарантировать, что следы данных не остаются в процессе разучивания.
- Совместимость: Алгоритмы машинного разучивания в идеале должны быть совместимы с существующими моделями МО. Это означает, что они должны быть разработаны таким образом, чтобы их можно было легко внедрить в различные системы.
- Масштабируемость: По мере увеличения размера наборов данных и усложнения моделей важно, чтобы алгоритмы машинного разучивания могли масштабироваться соответствующим образом. Они должны уметь обрабатывать большие объемы данных и потенциально выполнять задачи разучивания в нескольких системах или сетях.
Решение всех этих проблем представляет значительную сложность, и необходимо найти разумный баланс, чтобы обеспечить устойчивый прогресс. Чтобы помочь преодолеть эти трудности, компании могут привлекать междисциплинарные команды экспертов по ИИ, юристов в области конфиденциальности данных и специалистов по этике. Такие команды могут помочь выявить потенциальные риски и отслеживать прогресс в области машинного разучивания.
Будущее машинного разучивания
Google недавно объявила о первом конкурсе по машинному разучиванию. Его цель — решить обозначенные выше проблемы. В частности, Google надеется унифицировать и стандартизировать метрики оценки алгоритмов разучивания, а также стимулировать новые решения этой проблемы.
Соревнование, в котором рассматривается инструмент прогнозирования возраста, который должен забыть определенные обучающие данные, чтобы защитить конфиденциальность указанных лиц, началось в июле и продлится до середины сентября 2023 года. Для владельцев бизнеса, у которых могут возникнуть опасения по поводу данных, используемых в их моделях, результаты этого соревнования, безусловно, стоит отслеживать.
Помимо усилий Google, непрекращающийся рост исков против компаний, использующих ИИ и МО, несомненно, заставит эти организации действовать.
Заглядывая дальше в будущее, мы можем ожидать усовершенствований аппаратного и программного обеспечения для поддержки вычислительных потребностей машинного разучивания. Может увеличиться междисциплинарное сотрудничество, которое поможет упростить разработку. Юристы, специалисты по этике и конфиденциальности данных могут объединить усилия с исследователями ИИ, чтобы согласовать разработку алгоритмов разучивания.
Мы также должны ожидать, что машинное разучивание привлечет внимание законодателей и регулирующих органов, что потенциально приведет к появлению новых политик и нормативных актов. И по мере того, как вопросы конфиденциальности данных продолжат привлекать внимание общественности, повышенная осведомленность может также повлиять на разработку и применение машинного разучивания непредвиденными способами.
Практические выводы для бизнеса
Понимание ценности машинного разучивания крайне важно для компаний, которые хотят внедрить или уже внедрили модели ИИ, обученные на больших наборах данных. Некоторые практические выводы включают:
- Мониторинг исследований: отслеживание последних научных и отраслевых исследований поможет быть в курсе. Обратите особое внимание на результаты мероприятий вроде конкурса Google по машинному разучиванию. Рассмотрите возможность подписки на новостные рассылки об исследованиях в области ИИ и отслеживания лидеров мнений по ИИ для актуальной информации.
- Внедрение правил обработки данных: крайне важно изучить текущие и исторические практики обращения с данными. Всегда старайтесь избегать использования сомнительных или конфиденциальных данных на этапе обучения модели. Установите процедуры или процессы проверки для надлежащего обращения с данными.
- Рассмотрите междисциплинарные команды: междисциплинарный характер машинного разучивания выигрывает от разнообразной команды, которая может включать экспертов по ИИ, юристов в области конфиденциальности данных и специалистов по этике. Такая команда может помочь гарантировать соответствие ваших практик этическим и юридическим нормам.
- Учитывайте затраты на переобучение: никогда не помешает подготовиться к худшему. Оцените затраты на переобучение на тот случай, если машинное разучивание не сможет решить возникающие проблемы.
Соответствие темпам машинного разучивания — разумная долгосрочная стратегия для любого бизнеса, использующего большие наборы данных для обучения моделей ИИ. Внедряя некоторые или все из обозначенных выше стратегий, компании могут проактивно управлять любыми проблемами, которые могут возникнуть из-за данных, использованных при обучении крупных моделей ИИ.
Итоговые мысли
ИИ и МО — динамичные и постоянно развивающиеся области. Машинное разучивание возникло как важный аспект этих областей, позволяя им адаптироваться и развиваться более ответственно. Оно обеспечивает лучшие возможности обработки данных при сохранении качества моделей.
Идеальный сценарий — использовать правильные данные с самого начала, но реальность такова, что наши взгляды, информация и потребности в конфиденциальности меняются с течением времени. Принятие и внедрение машинного разучивания больше не является добровольным, а стало необходимостью для бизнеса.
В более широком контексте машинное разучивание соответствует философии ответственного ИИ. Это подчеркивает необходимость систем, которые прозрачны, подотчетны и ставят конфиденциальность пользователей на первое место.
Хотя пока рано делать выводы, по мере прогресса в этой области и стандартизации метрик оценки, внедрение машинного разучивания неизбежно станет более управляемым. Эта новая тенденция требует проактивного подхода от компаний, которые регулярно работают с моделями МО и большими наборами данных.