Google предлагает вторую версию Imagen, свою модель искусственного интеллекта, способную создавать и редактировать изображения по текстовым подсказкам, для более широкой аудитории — по крайней мере, для клиентов Google Cloud, использующих Vertex AI, которые получили разрешение на доступ.
Однако компания не раскрывает, какие данные использовались для обучения новой модели, а также не сообщает, как авторы, которые могли случайно внести свой вклад в набор данных, могут отказаться от участия или потребовать компенсацию.
Названная Imagen 2, усовершенствованная модель Google, которая была представлена в предварительном режиме на конференции I/O в мае, была разработана с использованием технологий Google DeepMind, флагманской лаборатории искусственного интеллекта Google. По сравнению с Imagen первого поколения, она «значительно» улучшила качество изображения, утверждает Google, и представила новые функции, включая возможность отрисовки текста и логотипов.
«Если вы хотите создавать изображения с наложением текста — например, рекламные, — вы можете это сделать», — заявил генеральный директор Google Cloud Томас Куриан на пресс-брифинге во вторник.
Генерация текста и логотипов ставит Imagen в один ряд с другими ведущими моделями генерации изображений, такими как DALL-E 3 от OpenAI и недавно запущенный Titan Image Generator от Amazon. Однако Imagen 2 может генерировать текст на нескольких языках — в частности, на китайском, хинди, японском, корейском, португальском, английском и испанском, а в 2024 году появятся и другие языки — и накладывать логотипы на существующие изображения.
«Imagen 2 может генерировать… эмблемы, знаки и абстрактные логотипы… и имеет возможность накладывать эти логотипы на продукты, одежду, визитные карточки и другие поверхности», — объясняет Виши Тирумаласетти, руководитель отдела генеративных медиапродуктов в Google, в блоге.
Благодаря «новым методам обучения и моделирования» Imagen 2 также может понимать более описательные, длинные запросы и давать «подробные ответы» на вопросы об элементах изображения. По словам Google, эти методы также улучшают многоязыковое понимание Imagen 2, позволяя модели переводить подсказки на одном языке в выходные данные (например, логотип) на другом языке.
Imagen 2 использует SynthID, подход, разработанный DeepMind, для нанесения невидимых водяных знаков на созданные им изображения. Конечно, для обнаружения этих водяных знаков, которые, как утверждает Google, устойчивы к редактированию изображений, включая сжатие, фильтры и цветокоррекцию, требуется инструмент, предоставляемый Google, который недоступен для сторонних разработчиков. Но поскольку политики выражают обеспокоенность растущим объемом дезинформации, создаваемой искусственным интеллектом, это, возможно, развеет некоторые опасения.
Google не раскрыла данные, которые использовались для обучения Imagen 2, что, хотя и разочаровывает, не является неожиданностью. Вопрос о том, могут ли поставщики GenAI, такие как Google, обучать модель на общедоступных данных — даже защищенных авторским правом — и затем продавать эту модель, остается открытым с юридической точки зрения.
Соответствующие иски проходят через суды, и поставщики утверждают, что они защищены доктриной добросовестного использования. Но пройдет еще некоторое время, прежде чем уляжется пыль.
Пока же Google предпочитает хранить молчание по этому поводу — это обратная стратегия по отношению к первому поколению Imagen, когда компания раскрыла, что для обучения модели она использовала версию публичного набора данных LAION. Известно, что LAION содержит проблемный контент, в том числе частные медицинские изображения, произведения искусства, защищенные авторским правом, и отфотошопленное порно знаменитостей — что, очевидно, не лучшим образом сказывается на Google.
Некоторые компании, разрабатывающие генераторы изображений на основе ИИ, такие как Stability AI и — несколько месяцев назад — OpenAI, позволяют создателям отказаться от участия в тренировочных наборах данных, если они того пожелают. Другие, в том числе Adobe и Getty Images, создают схемы вознаграждения для авторов — пусть и не всегда хорошо оплачиваемые и прозрачные.
Google — и, справедливости ради, несколько его конкурентов, включая Amazon, — не предлагают ни подобных механизмов отказа от участия, ни компенсаций авторам. И, судя по всему, это не изменится в ближайшее время.
Вместо этого Google предлагает политику возмещения ущерба, которая защищает соответствующих клиентов Vertex AI от претензий по авторским правам, связанным как с использованием Google обучающих данных, так и с результатами работы Imagen 2.
Проблема «рекурсии», или когда генеративная модель выдает зеркальную копию обучающего примера, по праву волнует корпоративных клиентов и разработчиков. Академическое исследование показало, что Imagen первого поколения не был застрахован от этого явления: он выдавал идентифицируемые фотографии реальных людей, работы художников, защищенные авторским правом, и многое другое, когда ему давали определенные подсказки.
Не удивительно, что в недавнем опросе компаний из списка Fortune 500, проведенном компанией Acrolinx, почти треть заявила, что интеллектуальная собственность вызывает у них наибольшую обеспокоенность в связи с использованием генеративного ИИ. Другой опрос показал, что девять из десяти разработчиков «сильно задумываются» o проблеме интеллектуальной собственности при принятии решения об использовании генеративного ИИ.
В Google надеются, что эта проблема будет решена с помощью новой расширенной политики. Условия возмещения ущерба Google ранее не распространялись на выходные данные Imagen. Что касается опасений создателей, то… в этом случае им не повезло.