Исследовательская команда впервые показала, что обучение с подкреплением — то есть нейронная сеть, которая учится лучшему действию в каждый момент на основе ряда вознаграждений — позволяет автономным транспортным средствам и подводным роботам находить и аккуратно отслеживать морские объекты и животных.
Подробности описаны в статье, опубликованной в журнале Science Robotics.
В настоящее время подводная робототехника становится ключевым инструментом для улучшения знаний об океанах в свете множества трудностей при их исследовании, с транспортными средствами, способными спускаться на глубины до 4000 метров. Кроме того, предоставляемые ими данные на местах, помогают дополнить другие данные, такие как получаемые со спутников. Эта технология позволяет изучать явления маленького масштаба, такие как захват CO2 морскими организмами, что помогает регулировать изменение климата.
Конкретно это новое исследование показывает, что обучение с подкреплением, широко используемое в области управления и робототехники, а также в разработке инструментов, связанных с обработкой естественного языка, таких как ChatGPT, позволяет подводным роботам учиться, какие действия выполнить в любой момент, чтобы достичь определенной цели. Эти действия соответствуют или даже превосходят в определенных условиях традиционные методы, основанные на аналитическом развитии.
«Этот тип обучения позволяет нам обучить нейронную сеть оптимизировать определенную задачу, которую в противном случае было бы очень сложно достичь. Например, мы смогли продемонстрировать, что можно оптимизировать траекторию транспортного средства для нахождения и отслеживания движущихся под водой объектов», — объясняет Иван Масмитья, главный автор исследования, который работал в Институте морских наук (ICM-CSIC) и Исследовательском институте аквариумов Монтерей-Бей (MBARI).
«Это позволит нам углубить изучение экологических явлений, таких как миграция или движение на малом и большом масштабах множества морских видов с использованием автономных роботов. Кроме того, эти достижения позволят мониторить другие океанографические инструменты в реальном времени посредством сети роботов, где некоторые могут находиться на поверхности и передавать по спутнику действия, выполняемые другими роботизированными платформами на дне моря», — указывает исследователь ICM-CSIC Жоан Наварро, который также участвовал в исследовании.
Для выполнения этой работы исследователи использовали методы акустической дальнометрии, которые позволяют оценить положение объекта, учитывая измерения расстояния, сделанные в разных точках. Однако это делает точность определения местоположения объекта очень зависимой от места, где были произведены измерения акустического дальномера.
И здесь важным становится применение искусственного интеллекта и, конкретно, обучения с подкреплением, позволяющего определить лучшие точки и, следовательно, оптимальную траекторию, которую должен пройти робот.
Нейронные сети были обучены, в частности, с использованием вычислительного кластера в Барселонском суперкомпьютерном центре (BSC-CNS), где находятся самые мощные суперкомпьютеры в Испании и одни из самых мощных в Европе. «Это позволило настроить параметры различных алгоритмов намного быстрее, чем при использовании обычных компьютеров», — указывает профессор Марио Мартин из отдела компьютерных наук Политехнического университета Каталонии (UPC), автор исследования.
После обучения алгоритмов они были протестированы на различных автономных транспортных средствах, включая AUV Sparus II, разработанный VICOROB, в рамках серии экспериментальных миссий, проведенных в порту Сан-Фелиу-де-Гишольс, в районе Байш-Эмпорда, и в заливе Монтерей (Калифорния) в сотрудничестве с главным исследователем лаборатории биоинспирации MBARI Какани Катиджа.
«Наша симуляционная среда включает архитектуру управления реальных транспортных средств, что позволило нам эффективно реализовать алгоритмы перед выходом в море», — объясняет Нарсис Паломерас из UdG.
В дальнейших исследованиях команда будет изучать возможность применения тех же алгоритмов для решения более сложных задач. Например, использование нескольких транспортных средств для нахождения объектов, обнаружение фронтов и термоклин, или совместный подъем водорослей с использованием методов обучения с подкреплением на нескольких платформах.