3D-LLM: интеграция 3D-мира в языковые модели

В последние годы успехи больших языковых моделей (LLM) и моделей Vision-Languageа (VLM) были примечательными. Однако эти мощные модели в основном работали в рамках 2D-области, не имея возможности обрабатывать реальные 3D-связанные задачи, которые требуют обработки более сложных концепций, таких как пространственные отношения, возможности, физика и планировка.

Решая этот недостаток, в своей новой статье «3D-LLM: внедрение 3D-мира в большие языковые модели» исследовательская группа из Калифорнийского университета в Лос-Анджелесе, Шанхайского университета Цзяо Тун, Южно-китайского технологического университета, Иллинойсского университета в Урбане-Шампейне, Массачусетского технологического института, Университета Массачусетса в Амхерсте и Лаборатории ИИ Массачусетского технологического института и IBM Watson представляет большие языковые модели на основе 3D (3D-LLM). Эти новые модели интегрируют 3D-мир в большие языковые модели и предназначены для захвата пространственной информации 3D, позволяя им эффективно выполнять задачи, связанные с 3D.

Команда резюмирует свой основной вклад следующим образом:

  • Мы представляем новое семейство больших языковых моделей на основе 3D (3D-LLM), которые могут принимать 3D-точки с признаками и языковые подсказки в качестве входных данных и выполнять различные задачи, связанные с 3D.
  • Мы разработали новые конвейеры сбора данных, которые могут генерировать данные 3D-языка в крупных масштабах.
  • Мы используем 3D-экстрактор признаков, который извлекает значимые 3D-признаки из визуализированных многоракурсных изображений.
  • Мы вводим механизм 3D-локализации для обучения 3D-LLM с целью лучшего захвата пространственной информации 3D.
  • Эксперименты на основе тестового набора данных ScanQA превосходят базовые модели.
  • Мы планируем выпустить наши 3D-LLM, набор данных 3D-языка и языковые 3D-признаки набора данных для будущих исследований.

Команда начинает с решения основной проблемы обучения 3D-языковой модели: нехватки 3D-данных и сложности получения значимых 3D-признаков для выравнивания языковых признаков. Для первой проблемы они представляют конвейеры генерации данных для генерации 3D-данных и языковых пар в масштабе; для второй проблемы они строят 3D-признаки из 2D-многообзорных изображений и используют 3D-экстрактор признаков для получения 3D-признаков из предобученных 2D-признаков.

В частности, в процедуре обучения 3D-LLM исследователи сначала используют три метода: прямую реконструкцию, слияние признаков, нейронные поля для построения 3D-признаков из признаков отрендеренных изображений. Затем они используют 2D-VLM в качестве базовых и вводят выровненные 3D-признаки для обучения 3D-LLM с нуля на построенном наборе данных 3D-языка. Наконец, они предлагают механизм 3D-локализации, чтобы 3D-LLM лучше захватывали пространственную информацию, которая включает дополнение 3D-признаков встроенными позиционными векторами и словарями LLM с маркерами местоположения.

В своем эмпирическом исследовании команда сравнила 3D-LLM с базовыми моделями, включая ScanQA, ScanRefer+MCAN, VoteNet+MCAN, LLaVA, flamingo-SingleImage, flamingo-MultiView, BLIP2-flant5-SingleImage и BLIP2-flant5-MultiView. Результаты показывают, что предложенная модель превосходит все базовые модели по большинству метрик оценки.

Статья «3D-LLM: внедрение 3D-мира в большие языковые модели» опубликована на arXiv.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *