Большие языковые модели обучаются на всевозможных данных, большинство из которых, судя по всему, было собрано без чьего-либо ведома или согласия. Теперь у вас есть выбор, разрешать ли Google использовать содержимое вашего сайта в качестве материала для ИИ Bard и любых будущих моделей, которые он решит создать.
Для этого достаточно запретить использование «User-Agent: Google-Extended» в файле robots.txt вашего сайта — документе, который определяет, к какому контенту могут получить доступ автоматические веб-краулеры.
Хотя компания Google утверждает, что ее искусственный интеллект разрабатывается на основе этических норм и с учетом интересов всех пользователей, вариант использования обучения искусственного интеллекта существенно отличается от индексирования Интернета.
«Мы также слышали от веб-издателей, что они хотят иметь больший выбор и контроль над тем, как их контент будет использоваться в новых генеративных ИИ», — пишет в своем блоге вице-президент компании по вопросам доверия Даниэль Ромен, как будто это стало для него неожиданностью.
Интересно, что слово «обучение» в сообщении не встречается, хотя это совершенно очевидно, для чего используются эти данные: в качестве сырья для обучения моделей машинного обучения.
Вместо этого вице-президент по доверию спрашивает вас, действительно ли вы не хотите «помочь улучшить генеративные API Bard и Vertex AI» — «чтобы помочь этим моделям ИИ стать более точными и способными с течением времени».
Видите ли, дело не в том, что Google что-то у вас забирает. Речь идет о том, готовы ли вы помочь.
С одной стороны, это, пожалуй, лучший способ постановки вопроса, поскольку согласие является важной частью этого уравнения, и положительный выбор в пользу содействия — это именно то, что Google должна просить. С другой стороны, тот факт, что Bard и другие модели уже были обучены на действительно огромных объемах данных, полученных от пользователей без их согласия, лишает такую постановку вопроса всякой достоверности.
Неизбежная истина, подтвержденная действиями Google, заключается в том, что компания воспользовалась неограниченным доступом к данным в Интернете, получила то, что ей было нужно, и теперь спрашивает разрешения постфактум, чтобы выглядеть так, будто согласие и этичный сбор данных являются для нее приоритетом. Если бы это было так, мы бы уже давно получили такую настройку.
По совпадению, компания Medium только сегодня объявила, что будет повсеместно блокировать подобные краулеры до тех пор, пока не будет найдено лучшее, более детальное решение. И они далеко не единственные.