Исследователи из Массачусетского технологического института (MIT) и Стэнфордского университета представили инновационный метод машинного обучения, который позволяет эффективно и действенно управлять роботами, такими как дроны или автономные транспортные средства, в динамических средах, где условия могут быстро меняться.
Этот метод может помочь автономному транспортному средству научиться компенсировать скользкие дорожные условия, чтобы избежать заноса, позволить летающему роботу буксировать различные объекты в космосе или позволить дрону плотно следовать за лыжником на спуске, несмотря на сильный ветер.
Подход исследователей включает определенную структуру из теории управления в процесс обучения модели таким образом, что это приводит к эффективному методу управления сложной динамикой, вызванной воздействием ветра на траекторию летящего транспортного средства. Один из способов представить эту структуру как подсказку, которая может помочь в управлении системой.
«Основной упор нашей работы заключается в изучении внутренней структуры динамики системы, которая может быть использована для разработки более эффективных стабилизирующих контроллеров», — говорит Навид Азизан, ассистент профессора Эстер и Харольда Эджертона в отделе механической инженерии MIT и Института данных, систем и общества (IDSS), а также член Лаборатории систем информации и принятия решений (LIDS). «Совместным изучением динамики системы и этих уникальных структур, ориентированных на управление, из данных мы можем естественным образом создавать контроллеры, которые функционируют намного эффективнее в реальном мире».
Используя эту структуру в изученной модели, метод исследователей немедленно извлекает эффективный контроллер из модели, в отличие от других методов машинного обучения, которые требуют отдельного извлечения или изучения контроллера с дополнительными шагами. Благодаря этой структуре их подход также способен изучать эффективный контроллер с использованием меньшего количества данных по сравнению с другими подходами. Это может помочь их системе управления на основе обучения достичь лучшей производительности быстрее в быстро изменяющихся средах.
«Эта работа стремится найти баланс между определением структуры в вашей системе и простым изучением модели из данных», — говорит главный автор Спенсер М. Ричардс, аспирант Стэнфордского университета. «Наш подход вдохновлен тем, как робототехники используют физику для вывода более простых моделей для роботов. Физический анализ этих моделей часто приводит к полезной структуре для целей управления, которую вы можете упустить, если просто попытаетесь наивно подогнать модель к данным. Вместо этого мы пытаемся определить аналогично полезную структуру из данных, которая указывает, как реализовать вашу логику управления».
Дополнительными авторами статьи являются Жан-Жак Слотин, профессор машиностроения, мозга и когнитивных наук в Массачусетском технологическом институте, и Марко Павоне, адъюнкт-профессор аэронавтики и астронавтики в Стэнфорде. Исследование будет представлено на Международной конференции по машинному обучению (ICML), которая пройдет 23–29 июля в Гонолулу. Предварительная версия доступна на сервере arXiv .
Изучение контроллера
Определение наилучшего способа управления роботом для выполнения задачи может быть сложной проблемой, даже если исследователи знают, как моделировать все в системе.
Контроллер — это логика, которая позволяет дрону, например, следовать желаемой траектории. Этот контроллер будет указывать дрону, как корректировать силы роторов, чтобы компенсировать влияние ветра, которое может сбить его с устойчивого пути, чтобы достичь своей цели.
Этот дрон является динамической системой — физической системой, которая развивается со временем. В данном случае его положение и скорость меняются при полете через окружающую среду. Если такая система достаточно проста, инженеры могут изготовить контроллер вручную.
Моделирование системы вручную по сути содержит определенную структуру, основанную на физике системы. Например, если робот моделируется вручную с использованием дифференциальных уравнений, они отражают взаимосвязь между скоростью, ускорением и силой. Ускорение — это скорость изменения скорости со временем, которая определяется массой и силами, действующими на робота.
Но часто система слишком сложна, чтобы быть точно смоделированной вручную. Аэродинамические эффекты, такие как влияние вихревого ветра на летающее транспортное средство, известны своей сложностью для ручного вывода, объясняет Ричардс. Исследователи вместо этого делают измерения положения дрона, его скорости и скорости вращения роторов со временем и используют машинное обучение для подгонки модели этой динамической системы к данным.
Но эти подходы обычно не изучают структуру, связанную с управлением. Эта структура полезна для определения наилучшего способа установки скоростей роторов для управления движением дрона со временем.
После моделирования динамической системы многие существующие подходы также используют данные для изучения отдельного контроллера для системы.
«Другие подходы, которые пытаются изучить динамику и контроллер из данных как отдельные сущности, философски отличаются от того, как мы обычно делаем это для более простых систем. Наш подход больше напоминает вывод моделей вручную из физики и связывание этого с управлением», — говорит Ричардс.
Определение структуры
Команда из MIT и Стэнфорда разработала метод, который использует машинное обучение для изучения модели динамики, но таким образом, что модель имеет некоторую предписанную структуру, которая полезна для управления системой.
С помощью этой структуры они могут извлечь контроллер непосредственно из модели динамики, а не использовать данные для изучения отдельной модели для контроллера.
«Мы обнаружили, что помимо изучения динамики также важно изучить структуру, ориентированную на управление, которая поддерживает эффективное проектирование контроллера. Наш подход изучения состояний зависимых коэффициентов факторизации динамики превзошел базовые показатели по эффективности данных и способности отслеживания, доказав свою эффективность в эффективном и действенном управлении траекторией системы», — говорит Азизан.
Когда они протестировали этот подход, их контроллер точно следовал желаемым траекториям, опережая все базовые методы. Контроллер, извлеченный из их изученной модели, почти соответствовал производительности контроллера истинной модели, которая создается с использованием точной динамики системы.
«Сделав более простые предположения, мы получили нечто, что на самом деле работало лучше, чем другие сложные базовые подходы», — добавляет Ричардс.
Исследователи также обнаружили, что их метод был эффективным по использованию данных, что означает, что он достигал высокой производительности даже с небольшим количеством данных. Например, он мог эффективно моделировать высокодинамичное роторное транспортное средство, используя всего 100 точек данных. Методы, использующие несколько изученных компонентов, показали, что их производительность снижается гораздо быстрее с меньшими наборами данных.
Эта эффективность может сделать их метод особенно полезным в ситуациях, когда дрону или роботу необходимо быстро учиться в быстро изменяющихся условиях.
Кроме того, их подход является общим и может быть применен ко многим типам динамических систем, от манипуляторов до свободно летающих космических аппаратов, работающих в условиях невесомости.
В будущем исследователи заинтересованы в разработке моделей, которые более физически интерпретируемы и способны определить очень конкретную информацию о динамической системе, говорит Ричардс. Это может привести к контроллерам с более высокой производительностью.
«Несмотря на его повсеместность и важность, нелинейное обратное управление остается искусством, что особенно подходит для методов, основанных на данных и обучении. Эта статья вносит значительный вклад в эту область, предлагая метод, который совместно изучает динамику системы, контроллер и структуру, ориентированную на управление», — говорит Николай Матни, ассистент профессора в отделе электротехники и системной инженерии Университета Пенсильвании, который не участвовал в этой работе.
«Что я нашел особенно захватывающим и убедительным, так это интеграция этих компонентов в совместный алгоритм обучения, так что структура, ориентированная на управление, действует как индуктивный фактор в процессе обучения. Результатом является эффективный процесс обучения с использованием данных, который выводит динамические модели, которые обладают внутренней структурой, которая обеспечивает эффективное, стабильное и надежное управление. Хотя технический вклад статьи отличен сам по себе, я считаю, что наиболее захватывающим и значимым является этот концептуальный вклад», — говорит Матни.