Представленные в пятницу компанией Stability AI, разработчиком AI для для генерации изображений Stable Diffusion и основанной бывшим менеджером хедж-фонда из Великобритании Эмадом Мостаком, которого обвиняют в преувеличении своего резюме, две новые языковые модели (LLM) основаны на моделях с открытым исходным кодом LLaMA и LLaMA 2 от Meta*, но обучены на совершенно новом, меньшем наборе данных, включающем синтетические данные.
Обе модели отличаются сложной логической обработкой, лингвистической тонкостью и способностью отвечать на сложные вопросы, связанные с специализированными областями, такими как право и математика.
Дочерняя компания Stability, CarperAI, выпустила FreeWilly под «некоммерческую лицензию», что означает, что они не могут использоваться для коммерческих целей и предназначены для продвижения исследований и открытого доступа в сообществе искусственного интеллекта.
Киты меньшего размера, более безвредные для окружающей среды
Названия моделей являются игрой слов на тему методологии обучения искусственного интеллекта «Orca», разработанной исследователями из Microsoft, которая позволяет «меньшим» моделям (тем, которые обучаются на более ограниченных данных) достигать производительности крупных моделей, обученных на более масштабных наборах данных.
Конкретно, модели FreeWilly1 и FreeWilly2 обучались на 600 000 точек данных, что составляет всего 10% от размера исходного набора данных Orca, с использованием инструкций из четырех наборов данных, созданных Энрико Шипполе. Это означает, что они были гораздо более экономичными и экологически чистыми (использовали меньше энергии и имели меньший углеродный след) по сравнению с исходной моделью Orca и большинством ведущих моделей LLM. Модели по-прежнему показывают выдающуюся производительность, сравнимую и даже превосходящую ChatGPT на GPT-3.5 в некоторых случаях.
Обучение на синтетических данных показывает перспективы
Одна из проблем, возникающих с распространением моделей LLM, заключается в следующем: что произойдет, когда будет генерироваться все больше контента с их помощью, а затем будут обучаться будущие обновления этих моделей и будущие модели на этом сгенерированном искусственным интеллектом контенте данных?
Открытая статья описывает процесс «схлопывания модели», при котором LLM, обученные на все большем количестве данных, сгенерированных искусственным интеллектом, показывают более плохие результаты, чем их предшественники, обученные на данных, созданных людьми.
Однако при обучении FreeWillys Stability AI использовала две другие модели LLM для создания соответственно 500 000 примеров и 100 000 синтетических примеров. Оказалось, что FreeWillys все равно показывают хорошую производительность, что указывает на то, что синтетические данные могут стать решением проблемы схлопывания модели и избежания использования защищенных авторским правом или проприетарных данных.
Плавание в будущее с Stability AI
Stability AI видит в этих моделях новые стандарты в области открытого доступа к LLM, обеспечивая естественное понимание языка и возможность выполнения сложных задач.
«Мы в восторге от бесконечных возможностей, которые эти модели принесут сообществу искусственного интеллекта и новых приложений, на которые они вдохновят», — сказала команда Stability AI. Они выразили благодарность исследователям, инженерам и коллегам, чье преданное отношение сделало это возможным.
Исследователи и разработчики могут получить доступ к весам FreeWilly2 таким, какие они есть, в то время как веса FreeWilly1 выпущены как изменения в отношении исходной модели.
*Meta признана экстремистcкой организацией в России.