LEO — воплощенный универсальный агент, отлично справляющийся с задачами в трехмерном мире

Поиск единой универсальной модели, способной выполнять разнообразные задачи, близкие к возможностям человека, давно ведется в области искусственного интеллекта и нейронауки. Недавние успехи в области больших языковых моделей (LLM) открыли перспективные пути для создания таких универсальных моделей. Используя обширные наборы данных и масштабируемые архитектуры трансформеров, эти модели продемонстрировали огромный потенциал.

Однако сохраняется серьезная проблема: ограниченность возможностей этих моделей по восприятию и взаимодействию с трехмерной средой, окружающей человека и другие интеллектуальные объекты. Это ограничение выступает в качестве узкого места, препятствующего успешному выполнению реальных задач и достижению настоящего общего интеллекта.

В новой работе «Воплощенный универсальный агент в трехмерном мире» исследовательская группа из Пекинского института общего искусственного интеллекта (BIGAI), Пекинского университета, Университета Карнеги-Меллона и Университета Цинхуа представила LEO — воплощенный мультимодальный и многозадачный универсальный агент, обладающий такими важными возможностями, как восприятие, обоснование, рассуждение, планирование и действия в сложном трехмерном мире.

Команда резюмирует свой основной вклад следующим образом:

  1. Создание LEO, первого универсального агента, наделенного способностью воспринимать, обосновывать, рассуждать, планировать и действовать в трехмерной среде.
  2. Демонстрация возможности создания универсального агента путем тонкой настройки LLM с помощью объектно-ориентированных мультимодальных представлений и интеграции обучающих данных с реализованными последовательностями действий, что позволяет достичь совершенства при выполнении задач в реальном мире.
  3. Создание обширного набора данных и разработка методов повышения качества данных, получаемых от LLM, что необходимо для обучения такого агента.
  4. Всестороннее тестирование LEO, демонстрирующее его мастерство в различных задачах, включая встроенную навигацию и роботизированные манипуляции. Примечательно, что при увеличении объема обучающих данных наблюдается постоянный рост производительности.
  5. Стремление к развитию исследований путем публикации данных, кода и весов модели в интересах будущих работ над универсальными агентами.

Обучение LEO проходит в два этапа с использованием общей архитектуры, целей и весов модели на основе LLM: (1) согласование 3D-видения и языка и (2) настройка инструкций 3D-видения, языка и действий. Перцептивные способности LEO основаны на эгоцентрическом кодировщике 2D-изображений для восприятия объектов и объектно-ориентированном кодировщике 3D-облака точек для восприятия глобальной перспективы от третьего лица. Выходные токены 3D-кодировщика, представляющие наблюдаемые объекты, чередуются с текстовыми токенами, образуя последовательность обучающих задач, основанных на сцене. Эта последовательность служит входными данными для LLM, работающей только с декодером, при этом все задачи рассматриваются как задачи предсказания последовательности. Авторегрессионные цели обучения позволяют обучать LEO с входными и выходными данными, не зависящими от задач.

Команда проводит комплексное эмпирическое исследование, количественно оценивая и тестируя LEO на различных 3D-задачах. Среди задач — создание надписей на уровне объектов и сцен, ответы на 3D-вопросы и роботизированные манипуляции. Результаты показывают, что в большинстве задач LEO достигает наилучших результатов. Настройка инструкций с учетом конкретной задачи, осуществляемая с помощью единой модели, превосходит предыдущие модели, ориентированные на конкретные задачи, в различных областях. Более того, предварительная тренировка согласования 3D-видения и языка значительно повышает эффективность настройки инструкций VLA. В исследовании также подчеркивается положительное влияние масштабирования обучающих данных на производительность универсального агента.

В заключение следует отметить, что LEO представляет собой новаторское воплощение универсального агента, демонстрирующего замечательные возможности по навигации и взаимодействию в трехмерном мире. Предложенные исследовательской группой идеи и методологии открывают новые возможности для разработки искусственного интеллекта с улучшенными перцептивными и ориентированными на действия способностями.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *