Наборы данных для генеративного ИИ могут столкнуться с проблемами

На прошлых выходных в журнале The Atlantic появилась сенсационная статья, в которой говорится, что Стивен Кинг, Зэди Смит и Майкл Поллан находятся среди тысяч авторов, чьи произведения, защищенные авторским правом, были использованы для обучения генеративной модели ИИ Meta* LLaMA, а также других больших языковых моделей, с использованием набора данных под названием «Books3». Будущее ИИ, утверждалось в статье, «написано украденными словами».

Правда заключается в том, что вопрос о том, были ли произведения «украдены», далек от урегулирования, по крайней мере, в запутанном мире законов об авторском праве. Но наборы данных, используемые для обучения генеративного ИИ, могут столкнуться с проблемами — не только в американских судах, но и в суде общественного мнения.

Наборы данных с материалами, защищенными авторским правом: секрет Полишинеля

Это не секрет, что ИИ, основанные на больших языковых моделях, полагаются на поступление большого количества материалов, защищенных авторским правом, с целью «обучения». Сторонники ИИ и некоторые юридические эксперты настаивают, что это подпадает под то, что известно как «добросовестное использование» данных, часто ссылаясь на федеральное решение 2015 года о том, что сканирование Google книг библиотек с отображением «фрагментов» онлайн не нарушало авторские права, хотя другие видят столь же убедительный контраргумент.

Тем не менее, до недавнего времени немногие за пределами сообщества ИИ глубоко задумывались о том, как сотни наборов данных, позволивших ИИ обрабатывать огромные объемы данных и генерировать текстовый или графический вывод — практика, которая, вероятно, началась с выпуска ImageNet в 2009 году Фей-Фей Ли, доцентом Принстонского университета — повлияет на многих авторов, чьи творческие работы были включены в наборы данных. То есть до того, как в ноябре 2022 года был запущен ChatGPT, выведя генеративный ИИ на культурную авансцену всего за несколько коротких месяцев.

Искусственный интеллект выпущен из мешка

После появления ChatGPT модели ИИ перестали быть просто интересными научными экспериментами, а стали коммерческими предприятиями с огромными инвестициями и потенциалом прибыли. Авторы онлайн-контента — художники, писатели, блогеры, журналисты, пользователи Reddit, люди, публикующие в социальных сетях — теперь осознают, что их работа уже была собрана в огромные наборы данных, которые использовались для обучения моделей ИИ, которые в конечном итоге могут лишить их работы. Как оказалось, искусственный интеллект, вырвался из мешка — и последовали иски и забастовки Голливуда.

В то же время компании ИИ, такие как OpenAI, Anthropic, Cohere и даже Meta* — традиционно наиболее ориентированная на открытый исходный код из крупных технологических компаний, но которая отказалась раскрывать детали того, как была обучена модель LLaMA 2, — стали менее прозрачными и более скрытными в отношении того, какие наборы данных используются для обучения их моделей.

«Лишь немногие за пределами таких компаний, как Meta* и OpenAI, знают полный объем текстов, на которых были обучены эти программы», — говорится в The Atlantic. «Часть обучающих текстов взята из Википедии и других онлайн-писаний, но высококачественный генеративный ИИ требует более качественного ввода, чем обычно встречается в Интернете, то есть он требует такого, который можно найти в книгах». В иске, поданном в прошлом месяце в Калифорнии, писатели Сара Силверман, Ричард Кадри и Кристофер Голден утверждают, что Meta* нарушила законы об авторском праве, использовав их книги для обучения LLaMA.

The Atlantic получил и проанализировал Books3, который использовался для обучения LLaMA, а также BloombergGPT от Bloomberg, GPT-J от EleutherAI — популярная открытая модель — и, вероятно, другие генеративные ИИ-программы, которые сейчас встроены в веб-сайты по всему интернету. Автор статьи идентифицировал более 170 000 книг, которые были использованы, в том числе пять Дженнифер Иган, семь Джонатана Франзена, девять Белл Хукс, пять Дэвида Гранна и 33 Маргарет Этвуд.

В письме к The Atlantic Стелла Бидерман из Eleuther AI, которая создала Pile, написала: «Мы тесно сотрудничаем с создателями и правообладателями, чтобы понять и поддержать их точки зрения и потребности. В настоящее время мы создаем версию Pile, которая будет содержать исключительно документы, лицензированные для этого использования».

Сбор данных имеет долгую историю

Сбор данных имеет долгую историю — в основном для маркетинга и рекламы. Были времена брокеров почтовых рассылок середины 20-го века, которые «хвастались, что могут сдавать в аренду списки потенциально заинтересованных потребителей для длинного перечня товаров и услуг».

С появлением интернета за последнюю четверть века маркетологи перешли к созданию огромных баз данных для анализа всего, от сообщений в социальных сетях до куки-файлов веб-сайтов и местоположений GPS, чтобы персонально нацеливать рекламу и маркетинговые коммуникации на потребителей. Записи телефонных звонков «для обеспечения качества» давно используются для анализа настроений.

В ответ на проблемы, связанные с конфиденциальностью, предвзятостью и безопасностью, на протяжении десятилетий велись судебные разбирательства и предпринимались попытки регулировать сбор данных, в том числе принятие закона GDPR ЕС, который вступил в силу в 2018 году. Однако США, которые исторически разрешали компаниям и учреждениям собирать персональную информацию без явного согласия, за исключением отдельных секторов, пока не довели этот вопрос до конца.

Но проблема сейчас заключается не только в конфиденциальности, предубежденности или безопасности — генеративные модели ИИ влияют на рабочее место и общество в целом. Многие, несомненно, считают, что проблемы генеративного ИИ, связанные с трудом и авторским правом, это просто повторение предыдущих общественных изменений в области занятости, и что потребители примут происходящее, как не слишком отличающееся от того, как Big Tech собирала их данные на протяжении многих лет. Но миллионы людей считают, что их данные были украдены, и, вероятно, они не сдадутся без боя.

Приближается день расплаты для наборов данных генеративного ИИ

Это, конечно, не означает, что в конце концов им, возможно, не придется отказаться от борьбы. Но это также не означает, что Big Tech одержит большую победу. Пока большинство юридических экспертов, ясно дали понять, что решение будут принимать суды — дело может дойти до Верховного суда — и есть веские аргументы с обеих сторон спора вокруг наборов данных, используемых для обучения генеративного ИИ.

Предприятиям и компаниям ИИ, следует рассмотреть прозрачность как лучший вариант. В конце концов, что это значит, если эксперты могут только предполагать, что содержится в мощных, изощренных, массивных моделях ИИ, таких как GPT-4 или Claude или Pi?

Наборы данных, используемые для обучения LLM, уже не просто приносят пользу исследователям, ищущим очередной прорыв. Хотя некоторые могут утверждать, что генеративный ИИ принесет пользу всему миру, уже ни у кого не вызывает сомнений, что нарушение авторских прав носит массовый характер. Поскольку компании, стремящиеся к коммерческому успеху, все больше и больше нуждаются в данных для своих моделей, может возникнуть постоянный соблазн захватить все данные, которые только можно. Нет уверенности, что это закончится хорошо, возможно, наступит день расплаты.

*Meta признана экстремистcкой организацией в России.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *