Создание художественных коллажей с помощью ИИ-агента на основе обучения с подкреплением

Исследователи из Сеульского национального университета недавно попытались обучить агента искусственного интеллекта (ИИ) создавать коллажи — художественные произведения, созданные путем склеивания различных материалов, воспроизводящие известные произведения искусства и другие изображения. Предложенная ими модель была представлена в статье, предварительно опубликованной на arXiv и представленной в октябре на ICCV 2023.

«Искусство коллажа требует высокого человеческого мастерства, и нам стало интересно, как будут выглядеть коллажи, созданные искусственным интеллектом», — сообщили авторы Tech Xplore, — «Существующие инструменты искусственного интеллекта для генерации изображений, такие как DALL-E или StableDiffusion, уже могут генерировать изображения коллажей, но это лишь «имитация коллажа» из пикселей, а не настоящий коллаж, созданный в результате выполнения реальных этапов работы над коллажем. Мы хотели обучить искусственный интеллект создавать «настоящий коллаж»».

В предыдущем исследовании, посвященном созданию картин, ученые использовали обучение с подкреплением (RL), чтобы научить ИИ рисовать, следуя шагам, аналогичным тем, которые выполняют люди. Затем они задались вопросом, можно ли это сделать и при создании коллажей, и начали работать над созданием автономного генератора коллажей на основе обучения с подкреплением.

Таким образом, основной целью их недавней работы было обучение агента ИИ созданию коллажей, максимально похожих на целевые изображения (например, картины, фотографии и т.д.), путем разрывания и склеивания нескольких материалов с использованием обучения с подкреплением. Эти коллажи будут создаваться с использованием набора материалов, предоставленных пользователями-людьми.

«Наша модель RL должна заставить агента понять, что такое коллаж и как его правильно делать», — поясняют авторы. «Поскольку RL в основном требует множества проб и ошибок, модель должна получить опыт взаимодействия с холстом и создания реального коллажа».

Поскольку коллажи создаются из различных кусочков материалов, для эффективного создания таких произведений искусства агент должен сначала протестировать различные варианты вырезания и вставки, чтобы в конечном итоге определить, из каких материалов получается коллаж, наиболее похожий на целевые изображения. Исследователи обнаружили, что вначале их модель работала очень плохо, но со временем ее навыки значительно улучшились.

«RL агент обучается увеличивать вознаграждение, где вознаграждение определяется в зависимости от улучшения сходства между его холстом и целевым изображением», — говорят авторы. «Функция вознаграждения также развивается со временем, учась лучше оценивать сходство между созданным агентом коллажем и целевым изображением».

В процессе обучения модель получала случайное изображение и пыталась создать коллаж, воспроизводящий это изображение на белом холсте. На каждом этапе создания коллажа агент выбирал случайный материал из доступных вариантов и выбирал, как его разрезать, обрезать и наклеить на холст.

«Поскольку изображения целей и материалы даются в процессе обучения в случайном порядке, на более поздних этапах агент становится способным работать с любыми целями и материалами», — отмечают авторы. «Весь этот процесс несколько сложен для использования существующих безмодельных RL, поэтому мы разработали дифференцируемую среду для коллажа, чтобы агент мог легко отслеживать динамику коллажа. Это позволило нам применить RL на основе модели и повысить производительность».

Схема RL на основе модели, разработанная исследователями, черпает вдохновение в предыдущих работах о картинах на основе RL. Однако команда разработала собственный алгоритм обучения на основе модели, учитывающий динамику, связанную с созданием коллажей, которая является более сложной, чем динамика, лежащая в основе живописи.

«В то время как при рисовании используется заранее определенный мазок кистью, при создании коллажа необходимо наблюдать за тем, как выглядит данный материал, и выяснять, как им манипулировать, чтобы создать нужный фрагмент изображения для общего коллажа, учитывая форму, текстуру, цвета и координаты», — говорят авторы. «Поскольку SAC позволяет агенту более эффективно воспринимать разнообразные действия в непрерывном пространстве действий, чем DDPG, который использовался в картинах, SAC подходит для нашего случая».

Для эффективного создания коллажей авторы использовали свою обученную модель в качестве блока частичного генератора коллажей. Было обнаружено, что этот блок создает коллажи высокого разрешения, которые очень похожи на различные целевые изображения.

«Мы также разработали модуль для анализа сложности целевого изображения, чтобы распределить нагрузку на генератор частичных коллажей в местах с высокой сложностью», — пояснил автор. «Этот модуль позволяет повысить эстетическое качество коллажей».

Важнейшим преимуществом разработанной командой архитектуры является то, что она не требует образцов коллажей и демонстрационных данных, поскольку просто обучалась на примерах материалов и целевых изображений. Примечательно, что эти материалы и изображения гораздо легче собрать, чем оригинальные произведения искусства.

«Не имея художественных данных или знаний, агент самостоятельно научился делать коллаж», — отмечают авторы. «Конечная способность к созданию коллажа была достигнута агентом самостоятельно, что является примечательным результатом данной работы; это показывает могучие возможности RL как области обучения без данных».

По мере того как обучаемая модель постепенно постигала процесс создания коллажа, она могла хорошо обобщать широкий спектр изображений и сценариев. Пока она была протестирована только в симуляторах. Однако если ее применить к роботу-гуманоиду или роботизированной руке, то модель может также предоставить «чертежи» для создания физических коллажей.

«Создание среды, в которой RL агент мог бы обучаться должным образом, было очень сложной задачей», — говорят авторы. «Мы потратили много времени на разработку и определение закономерных для RL динамики и действий при создании коллажа. Кроме того, для экономии времени обучения мы должны были сделать их как можно более компактными и эффективными. Более того, мы должны были сохранить динамику дифференцируемой и для нашей схемы RL, основанной на модели».

Поскольку искусство весьма субъективно, оценить качество коллажей, созданных с помощью модели, достаточно сложно. Вначале исследователи провели пользовательское исследование, попросив различных участников поделиться своим мнением и отзывами о коллажах, созданных ИИ.

«Мы провели пользовательское исследование, но этого было недостаточно», — говорят авторы. «После долгих раздумий для более объективной оценки мы решили использовать CLIP, большую предварительно обученную мультимодальную модель компьютерного зрения и обработки естественного языка. Поскольку CLIP обучена примерно на 400 млн. пар «текст-изображение», мы считаем, что она способна дать более объективную оценку, чем пользовательское исследование. С помощью пользовательского исследования и CLIP мы сравнили нашу модель с другими моделями генерации на основе пикселей, оценив качество коллажей и согласованность содержания генерируемых изображений».

Проведенные исследователями пользовательское исследование и оценка на основе CLIP дали схожие результаты. В обоих тестах новая модель превзошла другие модели генерации коллажей.

Модель, представленная в данной работе, может быть в ближайшее время доработана и протестирована для возможности создания индивидуальных стилей с использованием более широкого спектра изображений и материалов. Кроме того, работа команды может вдохновить на разработку дополнительных инструментов искусственного интеллекта для создания различных типов произведений искусства.

«Сейчас мы заинтересованы в разработке стратегий, позволяющих нашим моделям справляться с различными стилевыми предпочтениями», — добавляют авторы. «В качестве будущей работы мы рассматриваем возможность разработки пользовательского интерактивного интерфейса, который сможет отражать предпочтения пользователя в процессе создания коллажей нашей моделью».

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *