Google описывает новые методы обучения роботов с помощью видео и больших языковых моделей

2024 год станет важным годом для пересечения генеративного ИИ, больших базовых моделей и робототехники. Вокруг потенциала различных приложений, начиная от обучения и заканчивая дизайном продуктов, царит большое оживление. Исследователи DeepMind Robotics компании Google являются одной из нескольких команд, изучающих потенциал этого пространства. В своем сегодняшнем блоге команда рассказывает о текущих исследованиях, направленных на то, чтобы роботы лучше понимали, чего именно мы, люди, хотим от них.

Традиционно роботы ориентированы на выполнение одной задачи в течение всей своей жизни. Одноцелевые роботы, как правило, очень хорошо справляются с одной задачей, но даже они сталкиваются с трудностями, когда в процесс непреднамеренно вкрадываются изменения или ошибки.

Недавно анонсированный AutoRT предназначен для использования больших базовых моделей в различных целях. В стандартном примере, приведенном командой DeepMind, система начинает с использования модели визуального языка (VLM) для улучшения ситуационной осведомленности. AutoRT способна управлять парком роботов, работающих в тандеме и оснащенных камерами для получения картины окружающей среды и объектов в ней.

Большая языковая модель при этом подсказывает задачи, которые может выполнить оборудование, включая его конечные механизмы. Многие считают, что LLM — это ключ к созданию робототехники, которая будет эффективно понимать команды на естественном языке, снижая необходимость в жестком кодировании.

За последние семь с лишним месяцев система уже прошла множество испытаний. AutoRT способна управлять одновременно 20 роботами и 52 различными устройствами. В общей сложности DeepMind провела около 77 000 испытаний, включающих более 6000 задач.

Новинкой команды также является RT-Trajectory, использующая видеоинформацию для обучения роботов. Многие команды исследуют использование видео с YouTube в качестве метода масштабного обучения роботов, но RT-Trajectory добавляет интересный слой, накладывая на видео двухмерный эскиз руки в действии.

Команда отмечает, что «эти траектории в виде RGB-изображений дают низкоуровневые, практические визуальные подсказки модели, когда она обучается политике управления роботом».

DeepMind утверждает, что при тестировании 41 задачи, уровень успешности обучения был вдвое выше, чем у RT-2 — 63 % против 29 %.

«RT-Trajectory использует богатую информацию о движении роботов, которая присутствует во всех наборах данных о роботах, но в настоящее время используется недостаточно», — отмечает команда. «RT-Trajectory — это не только еще один шаг на пути к созданию роботов, способных двигаться с высокой точностью в новых ситуациях, но и раскрытие знаний из существующих наборов данных».

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *