Обнаружение и отслеживание объектов имеют решающее значение для задач робототехники, однако существующие роботизированные системы для слежения за объектами страдают от двух заметных ограничений: их способность адаптироваться к новым объектам плохая, поскольку они закрыты и могут обрабатывать только фиксированный набор категорий объектов; они неудобны для конечных пользователей, поскольку целевые объекты часто неинтуитивны для задания конечными пользователями.
В новой статье «Следовать за чем угодно: обнаружение, отслеживание и слежение за любыми объектами в режиме реального времени» исследовательская группа из MIT и Гарвардского университета представляет систему слежения за любыми объектами (FAn) — открытую систему слежения в режиме реального времени за любыми объектами, которая может обнаруживать, сегментировать, отслеживать и следить за любым объектом, а также адаптироваться к новым объектам с помощью текста, изображений или щелчков мышью.
Команда резюмирует ключевые особенности предложенной FAn следующим образом:
- Открытый, мультимодальный подход для обнаружения, сегментации, отслеживания и слежения за любым объектом в режиме реального времени.
- Унифицированная система, которая легко развертывается на роботизированной платформе (в нашей работе — микро беспилотный летательный аппарат).
- Построено с механизмами повторного обнаружения, учитывающими сценарии, когда интересующий объект закрыт или отслеживание потеряно.
Команда определяет задачу слежения за объектами как задачу, когда, имея роботизированную систему, оснащенную камерой на борту, а также интересующий объект, цель состоит в том, чтобы обнаружить интересующий объект и управлять роботом так, чтобы интересующий объект оставался в поле зрения камеры на борту.
Для достижения этой цели FAn объединяет модели ViT последнего поколения, оптимизирует их для обеспечения обработки в режиме реального времени и объединяет их в единую систему. В частности, исследователи используют модель сегментации любых объектов (SAM) для сегментации, DINO и CLIP для эффективного изучения визуальных концепций на естественном языке и разрабатывают компактную схему обнаружения и семантической сегментации. Они также используют модели (Seg)AOT и SiamMask для отслеживания в режиме реального времени, а также вводят компактный контроллер визуального сервопривода для слежения за объектом.
Наконец, команда провела эксперименты по обнаружению, отслеживанию и слежению за различными объектами без обучения. Результаты подтверждают, что FAn способна плавно отслеживать интересующие объекты в режиме реального времени.
В целом, предложенная FAn обеспечивает комплексное решение для слежения за любыми объектами, она открыта, способна работать с мультимодальными данными, может функционировать в реальном времени и адаптироваться к новым условиям. Команда также опубликовала исходный код этой системы, чтобы она принесла пользу широкому кругу прикладных задач.
Код доступен на GitHub проекта. Статья «Следовать за чем угодно: обнаружение, отслеживание и слежение за любыми объектами в режиме реального времени» на arXiv.