Meta* продолжает активно исследовать новые формы моделей генеративного искусственного интеллекта и сегодня представляет свою последнюю разработку под названием CM3leon (произносится как «хамелеон»).
CM3leon — это мультимодальная базовая модель для создания текста из изображений, что полезно для автоматической генерации подписей к изображениям, и изображений из текста.
Генерация изображений с использованием искусственного интеллекта — не новая концепция на сегодняшний день, с популярными инструментами, такими как Stable Diffusion, DALL-E и Midjourney, которые широко доступны.
Но новыми являются техники, которые Meta* использует для создания CM3leon, и результативность, которую Meta* утверждает, базовая модель может достичь.
Сегодня технологии генерации изображений из текста в основном полагаются на использование моделей диффузии (отсюда и название Stable Diffusion) для создания изображения. CM3leon использует нечто другое: токеновую авторегрессионную модель.
«Модели диффузии в последнее время доминируют в работе по генерации изображений благодаря их высокой эффективности и относительно невысокой вычислительной сложности», — написали исследователи Meta* в статье, названной «Масштабирование многомодельных моделей с применением предварительного обучения и настройки инструкций». «В отличие от этого, токеновые авторегрессионные модели также известны своей способностью достичь отличных результатов, особенно в области глобальной согласованности изображений, но их обучение и использование для вывода гораздо более затратны».
То, что исследователи Meta* смогли сделать с CM3leon, — это демонстрация того, что токеновая авторегрессионная модель на самом деле может быть более эффективной, чем подход, основанный на модели диффузии.
«CM3leon достигает лидирующей производительности в генерации текста-изображения, несмотря на то, что была обучена с использованием вычислительных ресурсов в пять раз меньших, чем предыдущие методы на основе преобразования», — написали исследователи Meta* в блоге.
Этический подход Meta* к обучению изображений
Основная схема работы CM3leon во многом аналогична существующим моделям генерации текста.
Исследователи Meta* начали с этапа предварительного обучения с усиленным поиском. Вместо того чтобы просто собирать общедоступные изображения из Интернета, что вызвало некоторые юридические проблемы для моделей, основанных на диффузии, Meta* выбрала другой путь.
«Этические аспекты получения изображений в области генерации текста-изображения были предметом значительных дебатов», — говорится в исследовательской статье Meta*. «В данном исследовании мы используем только лицензированные изображения от Shutterstock. Таким образом, мы можем избежать проблем, связанных с владением и припиской изображений, не ущемляя при этом производительность».
После предварительного обучения модель CM3leon проходит стадию контролируемой доводки (SFT), которая, по словам исследователей Meta*, приводит к высокооптимизированным результатам как с точки зрения использования ресурсов, так и качества изображений. SFT — это подход, используемый OpenAI для обучения ChatGPT. В исследовательской статье Meta* отмечается, что SFT используется для обучения модели понимать сложные инструкции, что полезно для задач генерации.
«Мы обнаружили, что настройка инструкций заметно улучшает производительность многомодельной модели в различных задачах, таких как генерация описаний изображений, визуальный вопросно-ответный анализ, редактирование на основе текста и условная генерация изображений», — говорится в статье.
Просмотрев наборы примеров сгенерированных изображений, которые Meta* поделилась в своем блоге о CM3leon, можно увидеть впечатляющие результаты, ясно демонстрирующие способность модели понимать сложные многоэтапные инструкции и создавать изображения с очень высоким разрешением.
На данный момент CM3leon является исследовательским проектом, и не ясно, когда и будет ли Meta* предоставлять эту технологию в публичном доступе на одной из своих платформ. Учитывая ее мощность и более эффективное создание, высокая вероятность того, что CMleon и его подход к генеративному искусственному интеллекту перейдут из сферы исследований в практическое применение.
*Meta признана экстремистcкой организацией в России.