Веб-платформа Medium объявила о блокировке GPTBot компании OpenAI, агента, который сканирует веб-страницы для поиска контента, используемого для обучения моделей искусственного интеллекта компании. Однако настоящей новостью может стать то, что группа платформ вскоре может выступить единым фронтом против того, что многие считают эксплуатацией их контента.
Medium присоединилась к CNN, The New York Times и многим другим СМИ, добавив «User-Agent: GPTBot» в список запрещенных агентов в файле robots.txt. Это документ, размещаемый на многих сайтах, сообщает краулерам и индексаторам — автоматическим системам, постоянно сканирующим Интернет, — согласен ли данный сайт на сканирование или нет. Если вы по каким-то причинам предпочитаете не индексироваться, например, в Google, вы можете указать это в robots.txt.
Создатели ИИ, конечно, не только индексируют, но и собирают данные для использования в качестве исходного материала для своих моделей. Это мало кого радует, и уж точно не генерального директора Medium Тони Стабблбайна, который пишет:
Я не ненавистник, но я также хочу прямо сказать, что нынешнее состояние генеративного ИИ не является чистым благом для Интернета.
Они делают деньги на ваших произведениях, не спрашивая вашего согласия, не предлагая вам компенсаций и кредитов… Компании, использующие искусственный интеллект, извлекают выгоду из писателей, чтобы спамить читателей Интернета.
Поэтому, пишет он, Medium по умолчанию говорит OpenAI, чтобы тот убирался восвояси, когда к нему стучится его краулер. (Это одна из немногих компаний, которая уважает эту просьбу).
Однако он не преминул заметить, что такой, по сути, добровольный подход вряд ли повлияет на действия спамеров и других людей, которые просто проигнорируют просьбу. Хотя есть и возможность активных действий (например, отравить их данные, направив тупые краулеры на фальшивый контент), но это путь к эскалации, расходам и, скорее всего, судебным искам.
Впрочем, надежда есть. Стабблбайн пишет:
Medium не одинок. Мы активно набираем коалицию из других платформ, чтобы помочь разобраться с будущим добросовестного использования в эпоху ИИ.
Я разговаривал с <отредактировано>, <отредактировано>, <отредактировано>, <отредактировано> и <отредактировано>. Это крупные организации, о которых вы, наверное, догадываетесь, но они не готовы к публичной совместной работе.
Другие сталкиваются с той же проблемой, и, как и во многих других сферах, когда большее число людей соглашается на стандарт или платформу, возникает сетевой эффект и улучшается результат для всех. Коалиция крупных организаций стала бы мощным противовесом недобросовестным платформам ИИ.
Что их сдерживает? К сожалению, многоотраслевые партнерства, как правило, развиваются медленно по всем причинам, которые вы можете себе представить. По меркам издательского дела и авторского права ИИ является абсолютно новым явлением, и существует бесчисленное множество юридических и этических вопросов, на которые нет четких ответов, не говоря уже об устоявшихся и общепринятых.
Как можно договориться о партнерстве в области защиты интеллектуальной собственности, если определение интеллектуальной собственности и авторского права находится в состоянии неопределенности? Как запретить использование искусственного интеллекта, если совет директоров стремится найти способы использовать его в интересах компании?
Для того чтобы сделать первый смелый шаг и растопить лед, может потребоваться такая 900-фунтовая интернет-горилла, как Википедия. Одни организации могут быть ограничены деловыми соображениями, но есть и другие, не обремененные ими, которые могут смело выходить вперед, не боясь разочаровать акционеров. Но пока никто не сделает шаг навстречу, мы останемся во власти краулеров, которые уважают или игнорируют наше согласие по своему усмотрению.