Стартап Stability AI продолжает совершенствовать свои модели генеративного искусственного интеллекта в условиях усиливающейся конкуренции и этических вызовов.
Сегодня Stability AI объявила о запуске Stable Diffusion XL 1.0, модели текст-в-изображение, которую компания описывает как свой «самый передовой» релиз на сегодняшний день. Stable Diffusion XL 1.0 доступна с открытом исходном коде на GitHub, а также через API и приложения для потребителей Stability, такие как ClipDrop и DreamStudio. По заявлению Stability, Stable Diffusion XL 1.0 обеспечивает «более яркие» и «точные» цвета, а также лучший контраст, тени и освещение по сравнению с предыдущей версией.
В интервью TechCrunch глава отдела прикладного машинного обучения Stability AI Джо Пенна отметил, что Stable Diffusion XL 1.0 содержит 3,5 миллиарда параметров и может создавать изображения с разрешением 1 мегапиксель «за секунды» в нескольких соотношениях сторон. «Параметры» — это части модели, извлеченные из обучающих данных, и в данном случае они определяют уровень умения модели решать задачу генерации изображений.
Предыдущая модель Stable Diffusion, Stable Diffusion XL 0.9, также могла создавать изображения с более высоким разрешением, но требовала большей вычислительной мощности.
«Stable Diffusion XL 1.0 настраиваема и готова для доведения до совершенства в плане концепций и стилей», — сказал Пенна. «Она также более проста в использовании и способна создавать сложные дизайны с помощью базовой обработки естественного языка».
Stable Diffusion XL 1.0 также улучшена в области генерации текста. В то время как многие лучшие модели текст-в-изображение испытывают трудности с созданием изображений с читаемыми логотипами, не говоря уже о каллиграфии или шрифтах, Stable Diffusion XL 1.0 способна создавать «продвинутый» текст и обеспечивать его читаемость, говорит Пенна.
Как сообщают SiliconAngle и VentureBeat, Stable Diffusion XL 1.0 поддерживает заполнение (восстановление отсутствующих частей изображения), расширение существующих изображений и «изображение-в-изображение» — то есть пользователи могут ввести изображение и добавить некоторые текстовые подсказки, чтобы создать более подробные варианты этой картинки. Более того, модель понимает сложные инструкции, состоящие из нескольких частей, заданные в кратких подсказках, в то время как предыдущие модели Stable Diffusion требовали более длинных текстовых подсказок.
«Мы надеемся, что, выпустив эту гораздо более мощную модель с открытым исходным кодом, увеличение разрешения изображений будет не единственным улучшением, но также будут сделаны значительные шаги вперед, которые сильно помогут всем пользователям», — добавил он.
Но, как и с предыдущими версиями Stable Diffusion, модель вызывает сложные моральные вопросы.
Версию Stable Diffusion XL 1.0 с открытым исходным кодом в теории можно использовать злоумышленникам для создания токсичного или вредоносного контента, такого как неконсенсуальные дипфейки. Это частично связано с данными, использованными для ее обучения: миллионы изображений из всемирной паутины.
Бесчисленные учебники демонстрируют, как использовать собственные инструменты Stability AI, включая DreamStudio, интерфейс с открытым исходным кодом для Stable Diffusion, для создания дипфейков. Многие другие показывают, как настраивать базовые модели Stable Diffusion для создания порнографии.
Пенна не отрицает возможности злоупотребления и признает, что модель также содержит определенные предубеждения. Однако он добавил, что Stability AI предприняла «дополнительные шаги» для смягчения создания вредоносного контента, фильтруя обучающие данные модели на наличие «небезопасных» изображений, выпуская новые предупреждения относительно проблемных подсказок и блокируя как можно больше отдельных проблемных терминов в инструменте.
Обучающая выборка Stable Diffusion XL 1.0 также включает произведения искусства художников, которые протестовали против использования их работ компаниями, включая Stability AI, в качестве обучающих данных для моделей генеративного искусственного интеллекта. Stability AI утверждает, что она защищена от юридической ответственности доктриной о справедливом использовании, по крайней мере, в США. Но это не помешало нескольким художникам и фотостоковой компании Getty Images подать иски, чтобы прекратить такую практику.
Stability AI, которая имеет партнерство со стартапом Spawning для учета запросов на «отказ» от этих художников, говорит, что не удалила все отмеченные произведения искусства из своих наборов обучающих данных, но «продолжает учитывать запросы художников».
«Мы постоянно улучшаем функциональность безопасности Stable Diffusion и серьезно намерены продолжать совершенствовать эти меры», — сказал Пенна. «Более того, мы обязуемся уважать запросы художников об удалении их из наборов обучающих данных».
Вместе с выпуском Stable Diffusion XL 1.0 Stability AI выпускает функцию тонкой настройки в бета-версии для своего API, которая позволит пользователям использовать всего пять изображений для «специализации» генерации на конкретных людях, продуктах и т.д. Компания также представляет Stable Diffusion XL 1.0 на платформе Bedrock от Amazon для размещения моделей генеративного искусственного интеллекта, расширяя свое ранее объявленное сотрудничество с AWS.
Стремление к партнерствам и новым возможностям связано с тем, что Stability испытывает затишье в коммерческой деятельности и сталкивается с жесткой конкуренцией со стороны OpenAI, Midjourney и других. В апреле Semafor сообщил, что Stability AI, которая собрала более 100 миллионов долларов венчурного капитала на сегодняшний день, быстро истощает свои финансовые ресурсы, что привело к закрытию конвертируемой облигации на 25 миллионов долларов в июне и поиску руководителя для увеличения объема продаж.
«Последняя модель SDXL является следующим шагом в наследии инноваций Stability AI и способности предоставлять самые передовые модели с открытым доступом на рынок для сообщества искусственного интеллекта», — сказал генеральный директор Stability AI Эмад Мостак в пресс-релизе. «Представление версии 1.0 на Amazon Bedrock демонстрирует нашу тесную работу с AWS для предоставления лучших решений для разработчиков и наших клиентов».