Вернитесь на год назад, за две недели до того, как OpenAI выпустит ChatGPT. Одна модель ИИ от Meta* появилась, вызвала массу споров, а затем исчезла. Теперь один из ее первоначальных авторов рассказал об этом.
Росс Тейлор стал одним из основателей платформы Papers with Code, на которой размещаются исследовательские работы по моделям машинного обучения. Он был одним из первоначальных авторов статьи, описывающей Galactica, большую языковую модель, обученную на научных статьях.
Однако демонстрация этой модели вызвала споры — Galactica выдавала цитаты из несуществующих статей. Уже через несколько дней после публикации Galactica была оперативно отозвана.
В своем сообщении на X (бывший Twitter) Тейлор нарушил молчание, заявив, что команда, создавшая модель, была «перегружена и потеряла ситуационную осведомленность при запуске, выпустив демо-версию» без проверок.
«Мы знали о возможной критике, но при той нагрузке, которую мы испытывали, упустили из виду очевидное».
Модель превзошла такие модели, как PaLM от Google и Chinchilla от DeepMind, но именно демонстрация подвела ее.
По словам Тейлора, идея демонстрации заключалась в том, чтобы понять распределение научных запросов, которые люди будут использовать для LLM. Он добавил: «Очевидно, что это была наша цель, которую мы предоставили журналистам, которые вместо этого задавали вопросы, выходящие за рамки ее компетенции. Но да, мы должны были понимать это лучше».
Автор обвинил пользователей в провале Galactica, сказав, что люди воспринимали ее как «продукт».
«Мы разместили на сайте свое видение и т.д., что ввело в заблуждение относительно ожиданий. Мы точно не рассматривали ее как продукт! Это была демонстрационная версия базовой модели», — сказал он.
Хотя он считает, что исследовательской группе «удалось бы избежать драмы вокруг демонстрации», он говорит, что опасения по поводу того, что модель породила «фальшивую науку», были «очень нелепыми».
В то время Майкл Блэк, директор известного Института интеллектуальных систем имени Макса Планка, заявил, что Galactica может «открыть эру глубоких научных подделок».
А Гради Буч, участник трио разработчиков унифицированного языка моделирования, назвал Galactica «не более чем статистической чепухой в масштабе».
Тейлор написал, что комментарий против Galactica был «действительно глупым, однако мы не должны были допустить даже этого, если бы запустили ее лучше».
Тейлор заявил на X, что он остается верен исследованию Galactica — даже решению о демонстрации, которое, по его словам, было «беспрецедентно открытым для крупной компании с большой языковой моделью в то время».
«Демонстрация была просто ошибочной, учитывая те векторы атак, которые она открыла для нас», — добавил он.
С тех пор компания Meta* придерживается своей стратегии открытого исходного кода, что привело к выпуску популярной большой языковой модели LLaMA и последующей, более мощной Llama 2. Тейлор называет этот результат удачным, поскольку уроки и наработки Galactica легли в основу последней из этих моделей.
«Несмотря на все вышесказанное, я бы с радостью сделал все это снова», — признается он. «Лучше сделать что-то и пожалеть, чем не сделать вообще ничего. Но все равно больно!»
*Meta признана экстремистcкой организацией в России.