Сегодня компания OpenAI представила обновленную версию своего инструмента для преобразования текста в изображение DALL-E, в которой используется ChatGPT — вирусный чат-бот OpenAI с искусственным интеллектом, для облегчения подсказок.
Большинство современных инструментов для создания изображений с помощью искусственного интеллекта принимают подсказки — описания изображений — и превращают их в произведения искусства в различных стилях, от фотореалистичного до фантастического. Но подобрать правильную подсказку может быть непросто, настолько, что «инженерия подсказок» становится настоящей профессией.
Новый инструмент OpenAI — DALL-E 3 — использует ChatGPT для дополнения подсказок. С помощью ChatGPT подписчики премиальных тарифных планов OpenAI ChatGPT Plus и ChatGPT Enterprise могут ввести запрос на изображение и отточить его в ходе общения с чат-ботом, получая результаты непосредственно в приложении чата.
ChatGPT может взять запрос, состоящий всего из нескольких слов, и сделать его более описательным, предоставляя дополнительные инструкции для модели DALL-E 3.
Интеграция ChatGPT — не единственное нововведение в DALL-E 3. По словам OpenAI, DALL-E 3 также генерирует изображения более высокого качества, которые более точно отражают подсказки, особенно при работе с длинными подсказками. Кроме того, он лучше справляется с контентом, который исторически ставил в тупик модели генерации изображений, например, с текстом и человеческими руками.
Кроме того, в DALL-E 3 появились новые механизмы, снижающие предвзятость алгоритмов и повышающие безопасность — так утверждает OpenAI. Например, DALL-E 3 будет отклонять запросы, в которых предлагается создать изображение в стиле живых художников или изобразить общественных деятелей. А художники теперь могут отказаться от использования некоторых (или всех) своих работ для обучения будущих поколений моделей преобразования текста в изображения OpenAI. Компания OpenAI, как и некоторые ее конкуренты, находится в судебном процессе по обвинению в использовании работ художников, защищенных авторским правом, для обучения своих генеративных моделей изображений на основе ИИ.
Запуск DALL-E 3 происходит на фоне обострения гонки генеративных ИИ, особенно в области синтеза изображений. Такие конкуренты, как Midjourney и Stability AI, продолжают совершенствовать свои модели генерации изображений, что заставляет OpenAI не отставать от них.
OpenAI планирует выпустить DALL-E 3 для премиум-пользователей ChatGPT в октябре, затем для исследовательских лабораторий и клиентов API. Компания не сообщила, когда — и планирует ли — выпустить бесплатный веб-инструмент, как это было с DALL-E 2 и оригинальной моделью DALL-E.