Новый подход к интеллектуальному принятию решений в обучении с подкреплением

В недавно опубликованной статье в журнале Intelligent Computing представлены основные проблемы обучения с подкреплением для интеллектуального принятия решений в сложных и динамичных средах.

Обучение с подкреплением — это тип машинного обучения, при котором агент учится принимать решения, взаимодействуя с окружающей средой и получая вознаграждение или наказание.

Цель агента — максимизировать долгосрочные вознаграждения, определяя лучшие действия в разных ситуациях. Однако исследователи Чэньян Ву и Цзунчжан Чжан из Нанкинского университета убеждены, что методы обучения с подкреплением, которые полагаются исключительно на вознаграждения и наказания,  не приведут к развитию интеллектуальных способностей, таких как обучение, восприятие, социальное взаимодействие, язык, обобщение и имитация.

В своей статье Ву и Чжан выделили то, что, по их мнению, является недостатками существующих методов обучения с подкреплением. Основная проблема — это количество информации, которое необходимо собрать методом проб и ошибок.

В отличие от людей, которые могут использовать свой прошлый опыт, чтобы рассуждать и принимать лучшие решения, существующие методы обучения с подкреплением в значительной степени полагаются на агентов, которые многократно пробуют что-то в больших масштабах, чтобы научиться выполнять задачи. При работе с задачами, в которых на результат влияет множество различных факторов, агентам необходимо попробовать огромное количество примеров, чтобы понять лучший подход.

Если сложность задачи немного возрастает, количество необходимых примеров быстро растет, что делает практически невозможной эффективную работу агента. Что еще хуже, даже если у агента была вся информация, необходимая для определения лучшей стратегии, все равно было бы очень сложно и долго ее выявить. Это замедляет и снижает эффективность процесса обучения.

Как статистическая неэффективность, так и вычислительная неэффективность препятствуют практической реализации общего обучения с подкреплением с нуля. Существующие методы не обладают эффективностью, необходимой для раскрытия полного потенциала обучения с подкреплением в разработке различных способностей без обширных вычислительных ресурсов.

Ву и Чжан утверждают, что статистические и вычислительные проблемы могут быть преодолены за счет доступа к информации высокой ценности в наблюдениях. Такая информация может обеспечить улучшение стратегии только на основе наблюдений, без необходимости прямого взаимодействия. Представьте, сколько времени потребуется агенту, чтобы научиться играть в Го, играя в Го, то есть методом проб и ошибок. Затем представьте, насколько быстрее агент мог бы научиться, прочитав руководства по Го, то есть используя информацию высокой ценности. Очевидно, что способность учиться на информационно насыщенных наблюдениях имеет решающее значение для эффективного решения сложных реальных задач.

Информация высокой ценности обладает двумя отличительными характеристиками, которые выделяют ее. Во-первых, она не является независимой и одинаково распределенной, то есть включает сложные взаимодействия и зависимости, отличающие ее от предыдущих наблюдений. Чтобы полностью понять информацию высокой ценности, необходимо учитывать ее связь с прошлой информацией и признавать ее исторический контекст.

Второй особенностью информации высокой ценности является ее актуальность для агентов, осведомленных о вычислениях. Агенты с неограниченными вычислительными ресурсами могут игнорировать стратегии высокого уровня и полагаться исключительно на правила базового уровня, чтобы вывести оптимальные подходы. Такие агенты игнорируют абстракции более высокого уровня, что может вносить неточности, и отдают приоритет вычислительной эффективности перед точностью.

Только агенты, осведомленные о компромиссах вычислений и способные оценить ценность вычислительно выгодной информации, могут эффективно использовать преимущества информации высокой ценности.

Чтобы обучение с подкреплением могло эффективно использовать информацию высокой ценности, агенты должны проектироваться новыми способами. В соответствии с их формализацией интеллектуального принятия решений как «ограниченного оптимального пожизненного обучения с подкреплением» Ву и Чжан выделили три фундаментальные проблемы в проектировании агентов:

01. Преодоление независимой и одинаково распределенной природы информационного потока и получение знаний на лету. Это требует связывания прошлого с будущим и преобразования непрерывного потока информации в полезные знания для будущего использования. Однако ограниченные вычислительные ресурсы делают невозможным запоминание и обработку всей истории взаимодействия. Поэтому необходимы структурированное представление знаний и алгоритм онлайн-обучения для поэтапной организации информации и преодоления этих ограничений.

02. Поддержка эффективных рассуждений с учетом ограниченных ресурсов. Во-первых, универсальных знаний, облегчающих понимание, предсказание, оценку и действие, больше недостаточно при ограничениях вычислений. Чтобы решить эту проблему, эффективные рассуждения требуют структурированного представления знаний, которое использует структуру проблемы и помогает агенту рассуждать специфичным для проблемы способом, что имеет решающее значение для вычислительной эффективности. Второй аспект процесса рассуждения — последовательное принятие решений. Он играет ключевую роль в направлении агентов к определению своих действий, обработке информации и разработке эффективных стратегий обучения. Следовательно, метауровневое рассуждение становится необходимым для максимизации использования вычислительных ресурсов. В-третьих, успешные рассуждения требуют от агентов эффективно сочетать свои внутренние способности с информацией, полученной из внешних наблюдений.

03. Определение цели рассуждения для обеспечения того, чтобы агент стремился к долгосрочным результатам и не руководствовался исключительно краткосрочными интересами. Это известно как дилемма исследования и эксплуатации. Она заключается в нахождении баланса между исследованием среды для получения новых знаний и использованием лучших стратегий на основе существующей информации. Эта дилемма усложняется с вычислительной точки зрения, поскольку у агента ограниченные ресурсы, и он должен сбалансировать исследование альтернативного способа вычисления и использование лучшего существующего подхода. Поскольку исследование всего в сложной среде непрактично, агент опирается на свои существующие знания, чтобы обобщить их на неизвестные ситуации. Разрешение этой дилеммы требует согласования цели рассуждения с долгосрочными интересами агента. В этом все еще многое предстоит понять, особенно с вычислительной точки зрения.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *