Многие «искусственные интеллекты» собирают оригинальные творческие работы людей. Регуляторы должны требовать прозрачности обучающих данных.
Есть старая поговорка, что никто никогда не стал бы есть колбасу, если бы знал, как делают колбасу. Это, безусловно, несправедливо по отношению к мясоперерабатывающей промышленности, ведь не вся колбаса, как остроумно заметил один острослов, «картриджи, содержащие содержимое пола скотобойни». Но это полезный принцип осторожности, когда мы сталкиваемся с продуктами, производители которых, мягко говоря, уклончивы о деталях своих производственных процессов.
Вот появляются на сцене технологические компании, которые в настоящее время рекламируют свои генеративные ИИ чудеса — особенно те большие языковые модели (LLM), которые бегло составляют правдоподобные предложения в ответ на подсказки людей. Когда их спрашивают, как совершается это чудо, в стандартных объяснениях подчеркивается блеск задействованных технологий.
Повествование звучит так: сначала все, когда-либо опубликованное людьми в машиночитаемой форме, было «прочесано» (т.е. собрано), чтобы создать огромный набор данных, на котором машины могли бы обучаться. Технология, которая позволила им «учиться» на этом наборе данных, — это изобретательное сочетание массивной вычислительной мощности, мощных алгоритмов (включая нечто таинственно называемое архитектурой «трансформера», изобретенной Google около 2017 года) и инструментов, называемых «нейронными сетями» (которые были спасены от устаревания ученым-компьютерщиком Джеффри Хинтоном в 1986 году). Объединение всего этого позволило создать машины, которые составляют текст, делая статистические прогнозы о том, какое слово наиболее вероятно появится дальше в предложении, которое они конструируют.
По сути, они просто очень дорогие статистические попугаи, другими словами, и — с точки зрения их создателей — это не их вина, если мир наивно приписывает машинам интеллект и/или беспокоится, что они могут представлять экзистенциальную угрозу для человечества. На самом деле эти спекулятивные страхи полезны для отрасли — вот почему некоторые технологические лидеры, такие как генеральный директор OpenAI Сэм Алтман, умоляют политиков обратить на них внимание. В конце концов, они отвлекают внимание от реального вреда, который уже наносят существующие развертывания этой технологии; и они не дают людям задавать неудобные вопросы о том, как именно приготовлена эта конкретная технологическая колбаса.
Один из старейших принципов в вычислительной технике — мусор на входе, мусор на выходе. Он применим в полной мере к LLM, поскольку они так же хороши, как и данные, на которых они были обучены. Но компании ИИ чрезвычайно скупы на информацию о характере этих обучающих данных. Большая часть из них получается веб-пауками — интернет-ботами, которые систематически просматривают веб. До сих пор ChatGPT и ему подобные использовали услуги Common Crawl — цифрового паука, который каждый месяц прочесывает веб, собирая петабайты данных, и бесплатно предоставляет свои архивы и наборы данных для публики. Но эти обучающие данные неизбежно включают большое количество охраняемых авторским правом произведений, которые всасываются под прикрытием претензий на «добросовестное использование», которые могут быть недействительными. Итак: в какой степени LLM были обучены на пиратском материале? Мы не знаем, и, возможно, компании тоже.
То же самое относится к углеродному следу моделей. В настоящее время мы знаем три вещи об этом. Во-первых, он большой: в 2019 году обучение одной из первых LLM, как оценивалось, выбросило 300 000 кг CO2 — эквивалент 125 туда-обратных рейсов между Нью-Йорком и Пекином; сегодняшние модели гораздо больше. Во-вторых, компании оправдывают эти выбросы, покупая «компенсации», которые являются современным эквивалентом средневековых индульгенций, раздражавших Мартина Лютера. И в-третьих, компании патологически скрывают экологические издержки всего этого — как обнаружила известный исследователь ИИ Тимнит Гебру.
Есть еще много подобного, но мораль истории сурова. Мы находимся в переломный момент человеческого пути, изобретя потенциально трансформирующую технологию. В ее основе — непостижимые машины, принадлежащие корпорациям, которые ненавидят прозрачность. Мы можем сделать мало в отношении машин, но мы, безусловно, можем сделать кое-что в отношении их владельцев. Как говорит технический издатель Тим О’Рейли: «Регуляторы должны начать с формализации и требования подробного раскрытия методов измерения и контроля, которые уже используются теми, кто разрабатывает и эксплуатирует передовые ИИ-системы». Они должны. Нам нужно знать, из чего сделана эта колбаса.