В начале августа The New York Times обновила свои условия предоставления услуг (TOS), чтобы запретить скрейпинг своих статей и изображений для обучения ИИ, сообщает Adweek. Этот шаг происходит в то время, когда технологические компании продолжают монетизировать приложения ИИ, такие как ChatGPT и Google Bard, которые приобрели свои возможности за счет массовых несанкционированных извлечений данных из Интернета.
Новые условия запрещают использование контента The Times, который включает статьи, видео, изображения и метаданные, для обучения любой модели ИИ без явного письменного разрешения. В разделе 2.1 условий NYT говорится, что их контент предназначен для «личного некоммерческого использования» читателем, и что некоммерческое использование не включает «разработку каких-либо программных продуктов, в том числе обучение систем машинного обучения или искусственного интеллекта (ИИ)».
Далее, в разделе 4.1, говорится, что без предварительного письменного согласия NYT никто не может «использовать Контент для разработки любых программных продуктов, включая, помимо прочего, обучение систем машинного обучения или искусственного интеллекта (ИИ)».
NYT также описывает последствия игнорирования этих ограничений: «Участие в запрещенном использовании Услуг может привести к гражданским, уголовным и/или административным санкциям, штрафам или взысканиям в отношении пользователя и помогающих ему лиц».
Какими бы угрожающими ни звучали эти слова, ограничительные условия использования ранее не останавливали массовое поглощение Интернета в наборы данных машинного обучения. Каждая большая языковая модель, доступная сегодня, включая GPT-4 от OpenAI, Claude 2 от Anthropic, Llama 2 от Meta* и PaLM 2 от Google, была обучена на основе больших наборов данных материалов, извлеченных из Интернета. Используя процесс, называемый неконтролируемым обучением, веб-данные подавались в нейронные сети, позволяя моделям ИИ получить концептуальное понимание языка путем анализа связей между словами.
Спорная природа использования извлеченных данных для обучения моделей ИИ, которая до сих пор не была полностью разрешена в судах США, привела по крайней мере к одному иску, обвиняющему OpenAI в плагиате из-за этой практики. На прошлой неделе среди прочих опасений, Associated Press и несколько других новостных организаций опубликовали открытое письмо, в котором говорится, что «должна быть разработана правовая база для защиты контента, который питает приложения ИИ».
OpenAI, вероятно, предвидит впереди дальнейшие юридические проблемы и начала предпринимать шаги, которые могут быть нацелены на опережение части этой критики. Например, OpenAI недавно подробно описала метод, с помощью которого веб-сайты могут заблокировать ее веб-краулер с помощью robots.txt. Это привело к тому, что несколько сайтов и авторов публично заявили, что заблокируют краулер.
Пока что, то, что уже было извлечено из Интернета, встроено в GPT-4, включая контент New York Times. Возможно, нам придется ждать GPT-5, чтобы увидеть, будут ли OpenAI или другие поставщики ИИ уважать пожелания владельцев контента быть оставленными в покое. Если нет, то впереди могут быть новые иски ИИ или нормативные акты.
*Meta признана экстремистcкой организацией в России.