Множественные «самостоятельные» модульные агенты повышают обучение искусственного интеллекта

Как и почему мы принимаем тысячи решений каждый день, давно является популярной областью исследований и комментариев.

«Предсказуемая иррациональность: скрытые силы, формирующие наши решения» Дэна Ариели, «Архитектура выбора. Как улучшить наши решения о здоровье, благосостоянии и счастье» Ричарда Талера и Касса Санстейна, и «Просто рациональность: принятие решений в реальном мире» Герда Гигеренцера — это всего лишь несколько из множества книг, анализирующих механику принятия решений, которые появляются в списке бестселлеров.

Команда исследователей из Института нейронауки Принстонского университета присоединилась к обсуждению с помощью статьи, исследующей процесс принятия решений в машинном обучении. Они утверждают, что нашли подход, который улучшает широко применяемый процесс одиночного агента.

В статье, опубликованной 3 июля в журнале «Протоколы Национальной академии наук», исследователи изложили исследование, сравнивающее подходы к обучению с подкреплением, используемые в одиночных системах с одним агентом и модульных системах с несколькими агентами искусственного интеллекта.

Они обучали агентов глубокого обучения с подкреплением в простой игре выживания на двухмерной сетке. Агенты были обучены находить различные ресурсы, скрытые по всему полю, и поддерживать достаточный уровень поставок для победы.

Один агент, рассматриваемый как «объединенный мозг» или «сам», действовал стандартным образом, применяя пошаговый подход для оценки каждой цели и, через пробу и ошибку, изучая наилучшие решения на каждом шаге.

Однако модульный агент полагался на входные данные от подагентов, у которых были более узко определенные цели и свой собственный опыт, успехи и неудачи. После оценки входных данных от нескольких модулей в единственном «мозге», агент принимал решения о дальнейших действиях.

Исследователи сравнили эту схему с принципами, лежащими в основе давно существующего спора о том, как личность управляет противоречивыми потребностями и целями.

Вопрос о том, «основывается ли решение на одном, монолитном агенте (или ‘себе’), который учитывает все потребности, или отражает ли это взаимодействие между несколькими модульными агентами (то есть ‘несколько самостоятельных’)… пронизывает мифологию и литературу», — сказал ведущий исследователь Джонатан Коэн. «Это является фокусом теоретических и эмпирических исследований практически во всех научных дисциплинах, изучающих действие агентов, от нейронауки, психологии, экономики и социологии до искусственного интеллекта и машинного обучения».

Один агент достигал целей игры после 30 000 обучающих шагов. Однако модульный агент учился быстрее, достигая значительных успехов уже после 5 000 шагов обучения.

«По сравнению со стандартным монолитным подходом, модульные агенты гораздо лучше поддерживают гомеостаз внутренних переменных в симулированных статических и изменяющихся средах», — сказал Коэн.

Команда пришла к выводу, что модульная схема позволяет подагентам, фокусирующимся на ограниченных целях, быстрее адаптироваться к изменяющимся условиям окружающей среды.

«Действия, обусловленные потребностями одного подагента, служили источником исследований для других», — сказал Коэн, — «позволяя им открывать ценность действий, которые они, возможно, не выбрали бы в данном состоянии».

Он также пояснил, что в то время как монолитный подход боролся с «проклятием размерности» — экспоненциальным ростом вариантов с увеличением сложности окружающей среды, модульные агенты, «специалисты» с ограниченными целями, фокусировались на более мелких отдельных задачах и лучше адаптировались к изменениям в окружающей среде.

«Мы показываем, что разработка агента модульным образом в виде набора подагентов, каждый из которых посвящен отдельной потребности, значительно усилила способность агента удовлетворять свои общие потребности», — говорится в статье.

Более эффективная и более быстрая адаптация к изменяющимся условиям и целям, добавили исследователи, модульный подход «может также объяснить, почему долгое время говорят о людях как о ‘множестве самостоятельных личностей'».

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *