Юристы Meta* Platforms предупреждали ее о юридических опасностях использования тысяч пиратских книг для обучения своих моделей искусственного интеллекта, но компания все равно сделала это, согласно новому заявлению в иске о нарушении авторских прав, первоначально поданному этим летом.
Новое заявление, поданное поздно вечером в понедельник, объединяет два иска, поданных против владельца Facebook* и Instagram* комиком Сарой Сильверман, лауреатом Пулитцеровской премии Майклом Чабоном и другими известными авторами, которые утверждают, что Meta* использовала их произведения без разрешения для обучения своей языковой модели искусственного интеллекта Llama.
В прошлом месяце калифорнийский судья отклонил часть иска Сильверман и сообщил, что даст авторам разрешение на внесение изменений в свои претензии.
Новая жалоба, поданная в понедельник, включает в себя записи чата связанного с Meta* исследователя, обсуждающего приобретение набора данных на сервере Discord, что является потенциально важным доказательством, указывающим на то, что Meta* знала, что используемые ею книги могут быть защищены законом об авторском праве США.
В журналах чата, процитированных в жалобе, исследователь Тим Деттмерс описывает свои переговоры с юридическим отделом Meta* о том, будет ли использование файлов книг в качестве обучающих данных «юридически обоснованным».
«В Facebook* есть много людей, заинтересованных в работе с The Pile, включая меня, но в нынешнем виде мы не можем использовать его по юридическим причинам», — написал Деттмерс в 2021 году, имея в виду набор данных, который Meta*, согласно жалобе, использовала для обучения своей первой версии Llama.
За месяц до этого Деттмерс написал, что юристы Meta* сообщили ему, что «данные не могут быть использованы или модели не могут быть опубликованы, если они были обучены на этих данных», говорится в жалобе.
Хотя Деттмерс не описывает опасения юристов, его коллеги в чате называют «книги с действующими авторскими правами» в качестве наиболее вероятного источника беспокойства. По их мнению, обучение на этих данных должно «подпадать под добросовестное использование» — американскую правовую доктрину, которая защищает некоторые виды нелицензионного использования произведений, защищенных авторским правом.
Деттмерс, докторант Вашингтонского университета, сообщил Reuters, что не может сразу прокомментировать эти претензии.
В этом году технологические компании столкнулись с целым рядом исков от создателей контента, которые обвиняют их в краже произведений, защищенных авторским правом, для создания генеративных моделей ИИ, которые произвели фурор во всем мире и вызвали бурный приток инвестиций.
Если эти дела окажутся успешными, они могут сдержать повальное увлечение генеративным ИИ, поскольку могут повысить стоимость создания моделей, требующих больших объемов данных, заставив компании, создающие ИИ, выплачивать компенсацию художникам, авторам и другим создателям контента за использование их произведений.
В то же время новые временные правила в Европе, регулирующие искусственный интеллект, могут заставить компании раскрывать данные, которые они используют для обучения своих моделей, что может подвергнуть их большему юридическому риску.
В феврале Meta* выпустила первую версию своей большой языковой модели Llama и опубликовала список данных, использованных для обучения, включая «раздел Books3 сайта The Pile». Человек, собравший этот набор данных, в других источниках заявил, что он содержит 196 640 книг, говорится в жалобе.
Компания не раскрыла данные для обучения последней версии модели, Llama 2, которую она сделала доступной для коммерческого использования этим летом.
Llama 2 бесплатна для компаний с менее чем 700 миллионов ежемесячных активных пользователей. Ее выход рассматривался в технологическом секторе как потенциальная возможность изменить ситуацию на рынке программного обеспечения для генеративного искусственного интеллекта, что грозит подорвать господство таких игроков, как OpenAI и Google, которые взимают плату за использование своих моделей.
*Деятельность Meta (Facebook и Instagram) запрещена в России как экстремистская.