Во вторник компания Stability AI выпустила Stable Diffusion XL Turbo, модель синтеза изображений с помощью искусственного интеллекта, которая может быстро генерировать изображения на основе письменного запроса. Настолько быстро, что компания называет ее «генерацией изображений в реальном времени», поскольку она также может быстро преобразовывать изображения из источника, например с веб-камеры.
Главная инновация SDXL Turbo заключается в способности создавать изображения за один шаг, что значительно меньше, чем 20-50 шагов, которые требовались его предшественнику. Stability приписывает этот скачок в эффективности технике, которую она называет Adversarial Diffusion Distillation (ADD). ADD использует дистилляцию оценок, когда модель обучается на основе существующих моделей синтеза изображений, и состязательные потери, которые улучшают способность модели различать реальные и сгенерированные изображения, повышая реалистичность результатов.
Компания Stability подробно описала внутреннюю работу модели в опубликованном во вторник исследовательском документе, посвященном технике ADD. Одним из заявленных преимуществ SDXL Turbo является его сходство с генеративными состязательными сетями (GAN), особенно при создании одношаговых изображений.
Изображения SDXL Turbo не столь детализированы, как изображения SDXL, полученные при большем количестве шагов, поэтому ее нельзя считать заменой предыдущей модели. Но за счет экономии скорости результаты получаются впечатляющими.
Чтобы испытать его, SDXL Turbo был локально запущен на Nvidia RTX 3060 с использованием Automatic1111, и он смог сгенерировать 3-шаговое изображение 1024×1024 примерно за 4 секунды против 26,4 секунды для 20-шагового изображения SDXL с аналогичной детализацией. Более мелкие изображения генерируются гораздо быстрее (менее одной секунды для 512×768), и, конечно, более мощная видеокарта, например RTX 3090 или 4090, также позволит значительно ускорить процесс генерации. Вопреки маркетинговым заявлениям Stability, наилучшая детализация изображений SDXL Turbo достигается при 3-5 шагах на изображение.
Скорость генерации SDXL Turbo — что касается «реального времени», Stability AI утверждает, что на Nvidia A100 (мощном GPU с поддержкой искусственного интеллекта) модель может генерировать изображение размером 512×512 за 207 мс, включая кодирование, один шаг шумоподавления и декодирование. Подобная скорость может привести к созданию генеративных видеофильтров ИИ в реальном времени или экспериментальной графики для видеоигр, если удастся решить проблемы с согласованием.
В настоящее время SDXL Turbo доступен по некоммерческой исследовательской лицензии, ограничивающей его использование личными, некоммерческими целями. Этот шаг уже вызвал критику в сообществе Stable Diffusion, но Stability AI выразила готовность к коммерческому применению и приглашает заинтересованных лиц связаться с ней для получения дополнительной информации.
Тем временем сама компания Stability AI столкнулась с проблемами внутреннего управления: недавно один из инвесторов призвал генерального директора Эмада Мостака уйти в отставку. Руководство Stability, как сообщается, изучает возможность продажи компании более крупному предприятию, но это не замедляет темпов выпуска новых продуктов. Только недавно компания анонсировала приложение Stable Video Diffusion, которое позволяет превращать неподвижные изображения в короткие видеоклипы.
Stability AI предлагает бета-демонстрацию возможностей SDXL Turbo на своей платформе для редактирования изображений Clipdrop. Вы также можете бесплатно поэкспериментировать с неофициальной демоверсией на Hugging Face. Очевидно, что в данном случае действуют все обычные предостережения, включая отсутствие источников обучающих данных и возможность неправомерного использования. Но даже с учетом этих нерешенных проблем технологический прогресс в области синтеза изображений с помощью ИИ, безусловно, не замедляется.