Мощные алгоритмы машинного обучения, известные как зрительно-языковые модели, которые учатся сопоставлять текст с изображениями, показали замечательные результаты, когда их попросили создать подписи или резюмировать видео.
Хотя эти модели прекрасно справляются с идентификацией объектов, они часто испытывают трудности с пониманием концепций, таких как атрибуты объектов или расположение предметов в сцене. Например, зрительно-языковая модель может распознать на изображении чашку и стол, но не понять, что чашка стоит на столе.
Исследователи из Массачусетского технологического института, Лаборатории искусственного интеллекта MIT-IBM Watson и других институтов продемонстрировали новую методику, использующую созданные компьютером данные для преодоления этого недостатка в зрительно-языковых моделях.
Исследователи создали синтетический набор изображений с широким спектром сценариев расположения объектов и действий человека, сопровождаемый подробными текстовыми описаниями. С помощью аннотированного набора данных они «исправили» зрительно-языковые модели, чтобы они могли более эффективно изучать концепции. Благодаря этой методике модели могут делать точные предсказания, когда видят реальные изображения.
При тестировании моделей на понимание концепций исследователи обнаружили, что их точность повысилась на 10%. Это может способствовать улучшению систем автоматического создания подписей к видеороликам или совершенствованию моделей, дающих ответы на вопросы по изображениям на естественном языке, что может найти применение в таких областях, как электронная коммерция или здравоохранение.
«В этой работе мы выходим за рамки существительных в том смысле, что мы выходим за рамки просто названий объектов и переходим к семантической концепции объекта и всего, что его окружает. Наша идея заключалась в том, что, когда модель машинного обучения увидит объекты в различных вариантах расположения, она сможет лучше понять, какое значение имеет расположение объектов в сцене», — говорит Халед Шехада, аспирант кафедры электротехники и вычислительной техники и соавтор статьи, посвященной этой методике.
Шехада написал статью вместе с ведущим автором Паолой Касканте-Бонилла, аспиранткой факультета информатики Университета Райса; Ауде Олива, директором по стратегическому взаимодействию с промышленностью в Колледже вычислений Шварцмана Массачусетского технологического института, директором MIT-IBM Watson AI Lab и старшим научным сотрудником Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); старшим автором Леонидом Карлинским, научным сотрудником MIT-IBM Watson AI Lab, а также другими сотрудниками MIT, MIT-IBM Watson AI Lab, Georgia Tech, Rice University, École des Ponts, Weizmann Institute of Science и IBM Research. Доклад будет представлен на Международной конференции по компьютерному зрению, которая пройдет в Париже 2-6 октября.
Фокусировка на объектах
Зрительно-языковые модели обычно учатся идентифицировать объекты в сцене, и в итоге могут игнорировать такие атрибуты объекта, как цвет и размер, или позиционные отношения, например, какой объект находится сверху другого объекта.
Это связано с методом обучения таких моделей, известным как контрастное обучение. Этот метод обучения заключается в том, что модель заставляют предсказывать соответствие между изображениями и текстом. При сравнении естественных изображений объекты в каждой сцене, как правило, вызывают наиболее яркие различия. (Возможно, на одном изображении изображена лошадь в поле, а на втором — парусник на воде).
«Каждое изображение может быть однозначно определено по объектам на нем. Таким образом, при контрастном обучении простое внимание к существительным и объектам решит проблему. Зачем модели делать что-то другое?» — говорит Карлинский.
Исследователи попытались решить эту проблему, используя синтетические данные для тонкой настройки зрительно-языковой модели. Процесс тонкой настройки заключается в корректировке уже обученной модели с целью улучшения ее работы над конкретной задачей.
С помощью компьютера были автоматически созданы синтетические видеоролики с различными трехмерными средами и объектами, такими как мебель и багаж, и добавлены аватары людей, которые взаимодействовали с этими объектами.
По отдельным кадрам этих видеороликов было создано около 800 000 фотореалистичных изображений, к каждому из которых была добавлена подробная аннотация. Исследователи разработали методику аннотирования каждого аспекта изображения, чтобы четко и последовательно отразить в подробных подписях атрибуты объекта, позиционные отношения и взаимодействие человека и объекта.
Поскольку исследователи создавали изображения, они могли контролировать внешний вид и положение объектов, а также пол, одежду, позы и действия аватаров-людей.
«Синтетические данные позволяют добиться большого разнообразия. При использовании реальных изображений в комнате может быть не так много слонов, а при использовании синтетических данных в комнате с человеком при желании может оказаться розовый слон», — говорит Касканте-Бонилла.
Синтетические данные имеют и другие преимущества. Их создание обходится дешевле, чем создание реальных данных, но при этом изображения получаются очень фотореалистичными. Они также сохраняют конфиденциальность, поскольку на изображениях нет реальных людей. А поскольку данные создаются автоматически компьютером, их можно быстро генерировать в огромных количествах.
Используя различные точки обзора камеры, слегка изменяя положение или атрибуты объектов, исследователи создали набор данных с гораздо более широким разнообразием сценариев, чем в естественном наборе данных.
Точно настроить, но не забыть
Однако при точной настройке модели на синтетических данных существует риск, что модель может «забыть» то, чему она научилась при первоначальном обучении на реальных данных.
Исследователи использовали несколько приемов для предотвращения этой проблемы, например, корректировали синтетические данные таким образом, чтобы цвета, освещение и тени более точно соответствовали естественным изображениям. Кроме того, после тонкой настройки были внесены изменения во внутреннее устройство модели, чтобы еще больше уменьшить забывчивость.
Синтетический набор данных и стратегия тонкой настройки позволили улучшить способность популярных зрительно-языковых моделей к точному распознаванию концепций на 10%. При этом модели не забывали о том, чему они уже научились.
Теперь, когда исследователи показали, как синтетические данные могут быть использованы для решения этой проблемы, они хотят найти способы улучшения визуального качества и разнообразия этих данных, а также физики, лежащей в основе синтетических сцен, чтобы они выглядели реалистично. Кроме того, они планируют проверить пределы масштабируемости и выяснить, начинает ли улучшаться качество модели при увеличении объема и разнообразия синтетических данных.