Обучение с подкреплением (RL) играет центральную роль в разработке агентов искусственного интеллекта (AI), способных принимать умные решения на основе опыта. Однако текущее понимание агентов RL ограничено агентами, которые учатся решать проблемы, а не бесконечно обучаться.
В новой статье «Определение непрерывного обучения с подкреплением», команда исследователей DeepMind переосмысливает проблемы обучения с подкреплением как бесконечную адаптацию и предлагает четкое, общее и точное математическое определение непрерывного обучения с подкреплением (CRL) с целью способствовать исследованиям в области CRL на прочной концептуальной основе.
Команда начинает с определения среды, агентов и связанных артефактов. Они рассматривают интерфейс агента-среды как пары счетных наборов действий и наблюдений, а истории представляют собой последовательности пар действие-наблюдение, которые представляют возможные взаимодействия между агентом и средой. Таким образом, как среду, так и агента можно определить как функции, которые относятся к интерфейсу агента-среды.
Они предоставляют неформальное определение проблемы CRL как «Проблема RL является примером CRL, если лучшие агенты никогда не прекращают обучение» и подводят итоги двух новых идей, которые формализуют основные определения следующим образом:
- Мы можем понимать каждого агента как неявный поиск по набору поведений.
- Каждый агент либо будет продолжать этот поиск бесконечно, либо в конечном итоге остановится.
Для формализации этих двух идей исследователи вводят пару операторов для агентов: 1) любой набор агентов порождает другой набор агентов и 2) заданный агент достигает набора агентов, чтобы определить обучение как неявный процесс поиска, а непрерывное обучение как продолжение этого процесса поиска бесконечно.
Исходя из вышеизложенных предпосылок, команда формализует интуицию CRL как описание ситуаций, в которых лучшие агенты не сходятся, более того, агенты будут продолжать свой неявный поиск по базовым поведениям бесконечно. Это определение побуждает исследователей или разработчиков проектировать агентов с новой перспективы: вместо создания агента, который стремится решить проблемы, предпочтение будет отдаваться агентам, которые продолжают обновлять свое поведение неограниченно на основе своего опыта.
В целом, данная работа создает прочную основу для непрерывного обучения с подкреплением, и команда также предоставляет руководства по проектированию принципиальных агентов для непрерывного обучения. Они заявляют, что в будущих работах они будут дальше исследовать связи между формализмом непрерывного обучения и некоторыми явлениями из недавних эмпирических исследований.