Новый генератор изображений ИИ от Meta* Emu был обучен на 1,1 миллиарда фотографий из Instagram* и Facebook*

В среду компания Meta* запустила бесплатный веб-сайт генератора изображений с искусственным интеллектом «Imagine with Meta* AI», основанный на модели синтеза изображений Emu. Meta* использовала 1,1 миллиарда общедоступных фотографий из Facebook* и Instagram* для обучения модели ИИ, которая может создавать новые изображения на основе письменной подсказки. Ранее версия этой технологии Meta*, использующая те же данные, была доступна только в приложениях для обмена сообщениями и социальных сетях, таких как Instagram*.

Если вы зарегистрированы в Facebook* или Instagram*, вполне возможно, что ваша фотография (или фотография, которую вы сделали) помогла обучить Emu. В каком-то смысле старая поговорка «Если вы за это не платите, значит, вы и есть товар» приобрела совершенно новый смысл. Однако по состоянию на 2016 год пользователи Instagram* загружали более 95 миллионов фотографий в день, так что набор данных, который Meta* использовала для обучения своей модели искусственного интеллекта, был лишь небольшим подмножеством общей библиотеки фотографий.

Поскольку Meta* утверждает, что использует для обучения только общедоступные фотографии, приватность ваших снимков в Instagram* или Facebook* должна предотвратить их включение в будущие модели ИИ компании (если, конечно, она не изменит эту политику).

Подобно Stable Diffusion, DALL-E 3 и Midjourney, Imagine with Meta* AI генерирует новые изображения на основе того, что модель ИИ «знает» о визуальных концепциях, полученных из обучающих данных. Для создания изображений на новом сайте требуется учетная запись Meta*, которая может быть импортирована из существующей учетной записи Facebook* или Instagram*. Каждое новое создание содержит четыре изображения размером 1280×1280 пикселей, которые можно сохранить в формате JPEG. Изображения содержат небольшой логотип с водяным знаком «Imagined with AI» в левом нижнем углу.

«Нам было приятно слышать от людей о том, как они используют imagine, функцию генерации текста в изображения от Meta* AI, для создания забавного и креативного контента в чатах», — говорится в пресс-релизе Meta*. «Сегодня мы расширяем доступ к imagine за пределами чатов, сделав её доступной в США по адресу imagine.meta.com. Этот отдельный сервис для творческих любителей позволяет создавать изображения с помощью технологии Emu, нашей базовой модели изображений».

При проверке нового генератора изображений Meta* с искусственным интеллектом, были получены эстетически привлекательные результаты. При создании изображений людей с Emu было замечено, что многие из них выглядят как типичные модные посты в Instagram*.

В состязательном тестировании, генератор отфильтровывает большинство сцен насилия, ругательных слов, сексуальных тем, а также имена знаменитостей и исторических личностей, но допускает таких коммерческих персонажей, как Элмо и Микки Маус.

Модель Meta* в целом хорошо создает фотореалистичные изображения, но не так хорошо, как Midjourney. Она справляется со сложными подсказками лучше, чем Stable Diffusion XL, но, возможно, не так хорошо, как DALL-E 3. Похоже, она совсем не справляется с рендерингом текста, а с различными видами изображений, такими как акварель, вышивка и рисование пером и чернилами, справляется с переменным успехом. Изображения людей, похоже, отличаются разнообразием этнического фона. В целом, эта модель кажется примерно средней в наши дни в плане синтеза изображений с помощью ИИ.

Итак, что мы знаем об Emu, модели ИИ, стоящей за новыми функциями ИИ-генерации изображений в Meta*? Согласно исследовательскому документу, опубликованному Meta* в сентябре, Emu получает способность генерировать высококачественные изображения благодаря процессу, называемому «настройкой качества». В отличие от традиционных моделей преобразования текста в изображение, обученных на большом количестве пар «изображение-текст», Emu фокусируется на «эстетическом выравнивании» после предварительного обучения, используя набор относительно небольших, но визуально привлекательных изображений.

Однако в основе Emu лежит упомянутый выше массивный набор данных для предварительного обучения, состоящий из 1,1 миллиарда пар «текст-изображение», взятых из Facebook* и Instagram*. В исследовательской работе по Emu компания Meta* не уточняет, откуда взялись эти обучающие данные, но в отчетах с конференции Meta* Connect 2023 говорится, что президент Meta* по глобальным вопросам Ник Клегг подтвердил, что в качестве обучающих данных для моделей ИИ используются сообщения из социальных сетей, в том числе изображения, которые подаются в Emu.

Это изменение в подходе по сравнению с другими ИИ-компаниями, поскольку Meta* имеет доступ к большому количеству данных с изображениями и надписями из своих сервисов. Другие модели синтеза изображений используют изображения, незаконно взятые из Интернета, полученные по лицензии из коммерческих библиотек стоковых изображений, или комбинацию того и другого.

Интересно, что исследовательская работа Meta* по Emu — это первая работа по крупной модели синтеза изображений, в которой не отрицается возможность создания дезинформации, искажающей реальность, или потенциально вредного контента. Это похоже на отражение общего принятия (или смирения) с реальностью моделей синтеза изображений с помощью ИИ, которые теперь становятся гораздо более распространенными. Хорошо это или нет — вопрос открытый.

Тем не менее, Meta*, похоже, решает проблемы потенциально вредных результатов с помощью фильтров, предлагаемой системы водяных знаков, которая пока не работает («В ближайшие недели мы добавим невидимые водяные знаки в imagine with Meta* AI для повышения прозрачности и отслеживаемости», — говорят в компании), а также небольшого отказа от ответственности в нижней части сайта: «Изображения могут быть неточными или неуместными».

Изображения могут быть неточными, и они могут быть даже неэтичными в глазах неназванных авторов 1,1 миллиарда изображений, использованных для обучения модели. Но тем не менее генерировать их может быть весело. Конечно, в зависимости от вашего настроя и того, как вы относитесь к темпам развития синтеза изображений с помощью ИИ, это удовольствие может быть сбалансировано равным уровнем беспокойства.

*Деятельность Meta (Facebook и Instagram) запрещена в России как экстремистская.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *