Недавно компания OpenAI без объявления добавила подробности о своем веб-краулере GPTBot в онлайн-документацию. GPTBot — это название пользовательского агента, который компания использует для извлечения веб-страниц для обучения ИИ-моделей, лежащих в основе ChatGPT, таких как GPT-4. Ранее на этой неделе некоторые сайты быстро заявили о своем намерении заблокировать доступ GPTBot к своему контенту.
В новой документации OpenAI говорит, что веб-страницы, просканированные с помощью GPTBot, «потенциально могут быть использованы для улучшения будущих моделей», и что разрешение GPTBot доступа к вашему сайту «может помочь ИИ-моделям стать более точными и улучшить их общие возможности и безопасность».
OpenAI утверждает, что внедрила фильтры, гарантирующие, что источники с платным доступом, собирающие личную информацию или любой контент, нарушающий политику OpenAI, не будут доступны для GPTBot.
Новость о возможности потенциально блокировать сбор данных OpenAI для обучения поступила слишком поздно, чтобы повлиять на обучающие данные ChatGPT или GPT-4, которые были собраны без предупреждения несколько лет назад. OpenAI собрала данные до сентября 2021 года, которые являются текущим ограничением «знаний» для языковых моделей OpenAI.
Стоит отметить, что новые инструкции могут не помешать версиям ChatGPT для веб-браузеров или плагинам ChatGPT получать доступ к текущим веб-сайтам, чтобы передавать пользователю актуальную информацию.
Ответ кроется в robots.txt
Согласно документации OpenAI, GPTBot будет идентифицироваться по токену пользовательского агента «GPTBot», а его полная строка будет «Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)».
В документации OpenAI также даются инструкции о том, как заблокировать сканирование GPTBot веб-сайтов с помощью стандартного файл robots.txt, который представляет собой текстовый файл, расположенный в корневом каталоге веб-сайта и дающий инструкции веб-краулерам (таким как те, которые используются поисковыми системами) не индексировать сайт.
Для этого достаточно добавить эти две строки в файл robots.txt сайта:
User-agent: GPTBot
Disallow: /
OpenAI также говорит, что администраторы могут ограничить доступ GPTBot к определенным частям сайта в robots.txt с помощью разных токенов:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Кроме того, OpenAI предоставила конкретные блоки IP-адресов, с которых будет работать GPTBot, которые можно заблокировать межсетевыми экранами.
Несмотря на эту возможность, блокировка GPTBot не гарантирует, что данные сайта не попадут в обучение всех ИИ-моделей будущего. Помимо проблем со скраперами, игнорирующими файлы robots.txt, существуют другие большие наборы данных сканированных веб-сайтов (такие как The Pile), которые не аффилированы с OpenAI. Эти наборы данных обычно используются для обучения открытых (или доступных по исходному коду) больших языковых моделей (LLM), таких как Llama 2 от Meta*.
Некоторые сайты реагируют поспешно
Хотя с технологической точки зрения ChatGPT имел огромный успех, он также вызвал споры из-за того, что он скопировал защищенные авторским правом данные без разрешения и сконцентрировал эту ценность в коммерческий продукт, который обходит типичную модель онлайн-публикаций. OpenAI обвиняли в плагиате, и подавали на нее в суд.
Соответственно, не удивительно, что некоторые люди реагируют на новость о возможности потенциально блокировать свой контент от будущих моделей GPT с некоторым сдерживаемым удовольствием. Например, во вторник VentureBeat отметил, что The Verge, писатель Substack Кейси Ньютон и Нил Кларк из Clarkesworld все заявили, что заблокируют GPTBot вскоре после того, как появились новости о боте.
Но для крупных веб-сайтов выбор блокировки краулеров больших языковых моделей (LLM) не так прост, как кажется. Сделав некоторые LLM слепыми к определенным данным сайта, что оставит пробелы в знаниях, которые могут очень хорошо послужить некоторым сайтам, тем, которые не хотят терять посетителей, если ChatGPT предоставит им их информацию, но это также может навредить в другом. Например, блокировка контента от будущих ИИ моделей может уменьшить культурный след сайта или бренда, если чат-боты ИИ станут основным пользовательским интерфейсом в будущем. Как мысленный эксперимент, представьте, что онлайн-бизнес в 2002 году заявил, что не хочет, чтобы его веб-сайт индексировался Google — обреченный на провал шаг, так как это был самый популярный способ для поиска информации в Интернете.
Игра в генеративный ИИ еще только начинается, и независимо от того, как будут развиваться технологии, или как отдельные сайты будут пытаться отказаться от обучения моделей ИИ, по крайней мере, OpenAI предоставляет такую возможность.
*Meta признана экстремистcкой организацией в России.