Модель искусственного интеллекта RT-2 от Google приближает нас к роботам вроде WALL-E

В пятницу Google DeepMind объявила о выпуске Robotic Transformer 2 (RT-2) — модели видео-языкового-действия (VLA), которая использует данные, собранные из Интернета, чтобы обеспечить лучшее управление роботами с помощью команд на естественном языке. Конечная цель заключается в создании универсальных роботов, способных перемещаться среди людей, подобно вымышленным роботам вроде WALL-E или C-3PO.

Когда человек хочет научиться выполнению задачи, мы часто читаем и наблюдаем. Аналогичным образом RT-2 использует большую языковую модель (технологию, лежащую в основе ChatGPT), которая была обучена на тексте и изображениях из Интернета. RT-2 использует эту информацию для распознавания паттернов и выполнения действий, даже если робот не был специально обучен выполнять эти задачи — это концепция, называемая обобщением.

Например, Google говорит, что RT-2 может позволить роботу распознавать и выбрасывать мусор, не будучи специально обученным для этого. Он использует своё понимание того, что такое мусор и как его обычно утилизируют, чтобы направлять свои действия. RT-2 даже видит выброшенную упаковку от еды или остатки банановой кожуры как мусор, несмотря на потенциальную неоднозначность.

В другом примере The New York Times описывает случай, когда инженер Google дал команду «Возьми вымершее животное», и робот RT-2 находит и выбирает динозавра из трех фигурок на столе.

Эта способность замечательна, потому что роботы обычно обучаются на основе огромного количества вручную собранных данных, что делает этот процесс сложным из-за высокой затраты времени и средств на покрытие каждого возможного сценария. Просто говоря, реальный мир — это динамический беспорядок, с изменяющимися ситуациями и конфигурациями объектов. Практическому роботу-помощнику необходимо уметь адаптироваться на лету таким образом, который невозможно явно запрограммировать, и вот здесь на помощь приходит RT-2.

Больше, чем кажется на первый взгляд

С RT-2 Google DeepMind выбрала стратегию, основанную на сильных сторонах моделей искусственного интеллекта «трансформеров», известных своей способностью обобщать информацию. RT-2 опирается на предыдущую работу Google в области искусственного интеллекта, включая модель Pathways Language and Image (PaLI-X) и модель Pathways Language Embodied (PaLM-E). Кроме того, RT-2 также был совместно обучен на данных своей предыдущей модели (RT-1), которые были собраны в течение 17 месяцев в «офисной кухне» с помощью 13 роботов.

Архитектура RT-2 включает тонкую настройку предварительно обученной модели VLM на данных робототехники и веб-данных. Полученная модель обрабатывает изображения с камеры робота и предсказывает действия, которые робот должен выполнить.

Поскольку RT-2 использует модель языка для обработки информации, Google решил представлять действия в виде токенов, которые традиционно являются фрагментами слова. «Чтобы управлять роботом, его нужно обучить выполнять действия», — пишет Google. «Мы решаем эту проблему, представляя действия в виде токенов в выходных данных модели — аналогично языковым токенам — и описываем действия как строки, которые могут быть обработаны стандартными токенизаторами естественного языка.»

При разработке RT-2 исследователи использовали тот же метод разложения действий робота на более мелкие части, что и в первой версии робота RT-1. Они обнаружили, что превращая эти действия в серию символов или кодов (представление «строкой»), они могли обучать робота новым навыкам с использованием тех же моделей обучения, что и для обработки веб-данных.

Модель также использует логическое мышление, позволяющее ей выполнять многоэтапное рассуждение, например, выбирать альтернативный инструмент (камень в качестве импровизированного молотка) или выбирать лучший напиток для уставшего человека (энергетический напиток).

Google говорит, что в более чем 6000 испытаниях RT-2 показал такую же производительность, как его предшественник RT-1, в задачах, на которые он был обучен, называемых «видимыми» задачами. Однако, когда он был протестирован на новых, «невидимых» сценариях, RT-2 свою производительность почти удвоил с 32 процентов у RT-1 до 62 процентов.

Хотя RT-2 проявляет большую способность адаптироваться к новым ситуациям, Google признает, что он не идеален. В разделе «Ограничения» технической статьи о RT-2 исследователи признают, что включение веб-данных в учебный материал «улучшает обобщение по семантическим и визуальным концепциям», но это не дает роботу волшебной способности выполнять физические движения, которые он еще не изучил на основе данных, полученных от предшественника. Другими словами, он не может выполнять действия, которые он не практиковал физически, но он становится лучше в использовании действий, которые уже знает, делая это по-новому.

Хотя конечная цель Google DeepMind — создание универсальных роботов, компания понимает, что перед ними еще много работы в области исследований. Но технология вроде RT-2 кажется сильным шагом в этом направлении.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *