Новая модель ИИ «Stable Video Diffusion» способна анимировать любое неподвижное изображение

Компания Stability AI выпустила Stable Video Diffusion — новый бесплатный инструмент для исследования возможностей ИИ, который позволяет превратить любое неподвижное изображение в короткий видеоролик с неоднозначными результатами. Это открытая предварительная версия из двух моделей ИИ, использующих технику «изображение-видео», и она может работать локально на машине с графическим процессором Nvidia.

В прошлом году компания Stability AI произвела фурор, выпустив Stable Diffusion, модель синтеза изображений с открытыми весами, которая положила начало волне свободного синтеза изображений и вдохновила большое сообщество любителей, которые создали на основе этой технологии свои собственные варианты настроек. Теперь Stability хочет сделать то же самое с синтезом видео на основе искусственного интеллекта, хотя эта технология все еще находится в начальной стадии развития.

В настоящее время Stable Video Diffusion состоит из двух моделей: одна может производить синтез изображения в видео длиной 14 кадров (называется «SVD»), а другая — 25 кадров (называется «SVD-XT»). Они могут работать со скоростью от 3 до 30 кадров в секунду и выдавать короткие (обычно 2-4-секундные) видеоклипы в формате MP4 с разрешением 576×1024.

В проведенных локальных тестах генерация 14 кадров заняла около 30 минут на видеокарте Nvidia RTX 3060, но пользователи могут экспериментировать с гораздо более быстрым запуском моделей в облаке с помощью таких сервисов, как Hugging Face и Replicate. В проведенных экспериментах сгенерированная анимация обычно оставляет часть сцены статичной и добавляет эффекты панорамирования и масштабирования, а также анимирует дым или огонь. Люди, изображенные на фотографиях, часто не двигаются, хотя на одном из снимков удалось добиться того, что одно изображение слегка ожило.

Учитывая эти ограничения, компания Stability подчеркивает, что данная модель все еще находится на ранней стадии разработки и предназначена только для исследований. «Хотя мы постоянно обновляем наши модели с учетом последних достижений и стараемся учесть ваши отзывы, — пишет компания на своем сайте, — на данном этапе эта модель не предназначена для реального или коммерческого применения. Ваши мнения и отзывы о безопасности и качестве важны для доработки этой модели с целью ее последующего выпуска».

Примечательно, но, возможно, неудивительно, что в исследовательской работе Stable Video Diffusion не раскрывается источник обучающих наборов данных модели, говорится лишь, что исследовательская группа использовала «большой набор видеоданных, включающий примерно 600 млн. образцов», которые были включены в Большой набор видеоданных (Large Video Dataset, LVD), состоящий из 580 млн. аннотированных видеоклипов, продолжительность которых составляет 212 лет.

Stable Video Diffusion — далеко не первая модель ИИ, предлагающая подобную функциональность. Ранее уже было рассказано о других методах искусственного синтеза видео, в том числе от Meta*, Google и Adobe. Было также рассказано о модели ModelScope с открытым исходным кодом и о модели Gen-2 компании Runway, которую многие считают лучшей ИИ-моделью на данный момент. Компания Stability AI заявляет, что также работает над моделью «текст в видео», которая позволит создавать короткие видеоклипы, используя письменные подсказки вместо изображений.

Исходный код и веса Stable Video Diffusion  доступны на GitHub, а еще один простой способ протестировать ее локально — запустить через платформу Pinokio.

*Meta признана экстремистcкой организацией в России.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *