Данные — это новая благоприятная почва, и на этой плодородной почве исследователи Массачусетского технологического института (MIT) высаживают не только пиксели. Используя синтетические изображения для обучения моделей машинного обучения, группа ученых недавно превзошла результаты, полученные с помощью традиционных методов обучения «на реальных изображениях».
В основе подхода лежит система StableRep, которая не просто использует синтетические изображения, а генерирует их с помощью таких популярных моделей преобразования текста в изображение, как Stable Diffusion. Это похоже на создание миров с помощью слов.
Что же входит в секретный соус StableRep? Стратегия, называемая «мультипозитивным контрастным обучением».
«Мы учим модель узнавать больше о высокоуровневых понятиях через контекст и дисперсию, а не просто скармливаем ей данные», — говорит Лицзе Фан, аспирант MIT по электротехнике, сотрудник Лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL), ведущий исследователь работы, опубликованной в настоящее время на сервере препринтов arXiv.
«Когда несколько изображений, созданных на основе одного и того же текста, рассматриваются как изображения одного и того же объекта, модель глубже погружается в понятия, стоящие за изображениями, то есть в объект, а не только в его пиксели».
Такой подход рассматривает несколько изображений, порожденных одинаковыми текстовыми подсказками, как положительные пары, предоставляя дополнительную информацию в процессе обучения, не просто добавляя больше разнообразия, но и указывая системе зрения, какие изображения похожи, а какие отличаются. Примечательно, что на обширных наборах данных StableRep превзошла лучшие модели, обученные на реальных изображениях, такие как SimCLR и CLIP.
«StableRep не только помогает решить проблему сбора данных в машинном обучении, но и открывает новую эру в технологиях обучения ИИ. Возможность по команде создавать высококачественные и разнообразные синтетические изображения поможет сократить обременительные расходы и ресурсы, — говорит Фан.
Процесс сбора данных никогда не был простым. В 1990-х годах исследователям приходилось вручную делать фотографии, чтобы собрать базы данных по объектам и лицам. В 2000-х годах люди стали искать данные в Интернете. Однако эти необработанные данные часто содержали расхождения с реальными сценариями и отражали общественные предубеждения, что искажало реальность.
Очистка массивов данных с помощью человеческого вмешательства — задача не только дорогостоящая, но и чрезвычайно сложная. Представьте себе, что этот сложный сбор данных можно свести к простой команде на естественном языке.
Важнейшим аспектом триумфа StableRep является настройка «шкалы наведения» в генеративной модели, которая обеспечивает тонкий баланс между разнообразием и достоверностью синтетических изображений. При точной настройке синтетические изображения, используемые для обучения самоконтролируемых моделей, оказались не менее, а то и более эффективными, чем реальные изображения.
Еще один шаг вперед — добавление функции языкового контроля, что позволило создать усовершенствованный вариант: StableRep+. При обучении на 20 млн. синтетических изображений StableRep+ не только достигла высокой точности, но и продемонстрировала поразительную эффективность по сравнению с моделями CLIP, обученными на 50 млн. реальных изображений.
Тем не менее, предстоящий путь не без изъянов. Исследователи откровенно говорят о ряде недостатков, среди которых медленный темп генерации изображений, семантические несоответствия между текстовыми подсказками и полученными изображениями, потенциальное усиление предвзятости, сложности с атрибуцией изображений — все эти проблемы необходимо решить для дальнейшего развития.
Другой проблемой является то, что StableRep требует предварительного обучения генеративной модели на масштабных реальных данных. Команда признает, что работа с реальными данными по-прежнему необходима, однако, получив хорошую генеративную модель, можно использовать ее для решения новых задач, например, для обучения моделей распознавания и визуальных представлений.
Хотя StableRep предлагает хорошее решение, уменьшая зависимость от огромных коллекций реальных изображений, она выдвигает на первый план проблему скрытых предубеждений в непроверенных данных, используемых для этих моделей «текст-изображение». Выбор текстовых подсказок, являющийся неотъемлемой частью процесса синтеза изображения, не совсем свободен от предвзятости, что «указывает на существенную роль тщательного отбора текста или возможного человеческого контроля», — говорит Фан.
«Используя новейшие модели преобразования текста в изображение, мы получили беспрецедентный контроль над формированием изображений, позволяющий получать разнообразные визуальные образы на основе одного текстового ввода. Это превосходит сбор реальных изображений по эффективности и универсальности. Это особенно полезно для специализированных задач, например, для балансировки разнообразия изображений при распознавании редко встречающихся объектов, представляя практичное дополнение к использованию реальных изображений для обучения», — говорит Фан.
«Наша работа — это шаг вперед в визуальном обучении, направленный на создание экономически эффективных альтернатив обучения и одновременно подчеркивающий необходимость постоянного совершенствования качества и синтеза данных».
«Одной из целей генеративного обучения моделей уже давно является возможность генерировать данные, полезные для обучения дискриминативных моделей», — говорит исследователь Google DeepMind и профессор информатики Университета Торонто Дэвид Флит, который не принимал участия в написании статьи.
«Хотя мы наблюдали некоторые признаки жизни, мечта была неуловима, особенно в таких масштабных сложных областях, как изображения высокого разрешения. В данной работе впервые, насколько мне известно, приводятся убедительные доказательства того, что эта мечта становится реальностью. В ней показано, что контрастное обучение на огромных массивах синтетических изображений позволяет создавать представления, превосходящие по масштабу те, которые были получены на основе реальных данных, что может улучшить решение множества задач, связанных со зрением».