Модели преобразования текста в изображения, основанные на техниках персонализации, таких как DreamBooth и LoRA, достигли впечатляющих результатов в создании качественных статических изображений, руководствуясь текстом, по доступной стоимости. Учитывая их широкие применения, исследователи и практики задумались о возможности расширения этого на создание анимированных изображений.
Отвечая на это, совместная исследовательская команда из Шанхайской лаборатории искусственного интеллекта, Китайского университета Гонконга и Стэнфордского университета представляет новую структуру AnimateDiff в своей новой статье «AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning». AnimateDiff — это общая и практическая платформа, способная генерировать анимированные изображения для любой персонализированной модели текста в изображение (T2I) без необходимости дополнительного обучения или настройки модели.
Цель данной работы заключается в преобразовании модели T2I в генератор анимации, сохраняя ее изначальные знания и качество с незначительными или без дополнительных затрат на обучение.
Архитектура AnimateDiff представляет собой следующий процесс: при наличии базовой персонализированной модели T2I AnimateDiff сначала обучает модуль моделирования движения на основе видеоданных. На этом этапе обновляются только параметры модуля движения, что позволяет сохранить особенности базовой модели T2I. Затем на стадии вывода обученный модуль движения используется для преобразования любой персонализированной модели, настроенной на базовой модели T2I, в целевой анимационный генератор. В конечном итоге преобразованный анимационный генератор будет генерировать разнообразные и персонализированные анимированные изображения.
Особенно стоит отметить, что, обучая отдельный модуль моделирования движения, не требуется дополнительная настройка, поскольку все предварительно обученные веса сохраняются, что значительно сокращает затраты на настройку.
Для структуры модуля моделирования движения команда выбрала ванильные временные трансформаторы в качестве базовой модели, которая лучше захватывает временные зависимости между особенностями в одном и том же месте. Они также вводят рецептивное поле на каждом уровне разрешения U-образной диффузионной сети, что значительно увеличивает его рецептивное поле. Кроме того, они используют синусоидальное кодирование позиции в блоке внутреннего внимания, чтобы сеть могла определить временное положение текущего кадра.
В своем эмпирическом исследовании команда сравнила AnimateDiff с базовым показателем Text2Video-Zero. AnimateDiff генерирует согласованное содержание, сохраняя высокое качество изображения.
В целом, данная работа подтверждает, что AnimateDiff является простой, но эффективной структурой для персонализированной анимации и имеет большой потенциал для широкого применения в анимации.
