Новый веб-краулер значительно расширяет объем данных, на которых будут обучаться модели OpenAI, но компания говорит, что вы можете отказаться, чтобы предотвратить посещение вашего сайта.
С новым GPTBot, модели ИИ от OpenAI могут сканировать Интернет для поиска новой информации, то есть ваш сайт и его контент могут быть проанализированы для обучения искусственного интеллекта — если только вы не откажетесь от этого.
«Веб-страницы, сканированные с помощью пользовательского агента GPTBot, потенциально могут быть использованы для улучшения будущих моделей», — говорит OpenAI. «Разрешение GPTBot доступа к вашему сайту может помочь моделям ИИ стать более точными и улучшить их общие возможности и безопасность».
OpenAI отмечает, что GPTBot не будет взламывать сайты, требующие оплаты подписки, что является отсылкой к недавнему скандалу, когда подписчики ChatGPT Plus, использующие «Обзор с Bing», могли обходить платный доступ для чтения статей. GPTBot также будет фильтровать источники, «известные сбором лично идентифицируемой информации или имеющие текст, нарушающий нашу политику».
Чтобы предотвратить сканирование GPTBot вашего сайта, OpenAI предоставляет две строки кода, которые вы можете скопировать и вставить в код вашего сайта, чтобы он ушел. Еще один фрагмент кода предоставит GPTBot доступ «только к частям вашего сайта» — средний вариант между полной блокировкой и широким доступом.
Это, вероятно, применимо только к сайтам, которыми вы владеете и управляете, то есть все, что вы публикуете на сайтах социальных сетей или блог-платформах like Substack или Medium, по-прежнему доступно.
Использование ChatGPT, похоже, не было немедленно затронуто изменением. Ранее ChatGPT работал на фиксированном наборе данных, который имеет охват только до 2021 года. По состоянию на сегодняшний день он по-прежнему не может отвечать на вопросы о текущих событиях.
Однако со временем GPTBot теоретически улучшит качество ответов ChatGPT, поскольку он постоянно работает в фоновом режиме для улучшения своих возможностей. PCMag ранее писал о важности предоставления неплатным изданиям возможности отказаться от сканирования ИИ или компенсировать им за пережёвывание их репортажей в ответах, сгенерированных ИИ. GPTBot может стать таким решением, хотя пост в блоге OpenAI содержит мало деталей.