Новый тест искусственного интеллекта под названием GAIA призван оценить, могут ли чат-боты, подобные ChatGPT, демонстрировать человеческие рассуждения и компетентность в решении повседневных задач.
Созданный исследователями из компаний Meta*, Hugging Face, AutoGPT и GenAI, бенчмарк «предлагает реальные вопросы, требующие набора фундаментальных способностей, таких как рассуждения, работа с несколькими модальностями, просмотр веб-страниц и общее умение пользоваться инструментами», — пишут исследователи в статье, опубликованной на сайте arXiv.
По словам исследователей, вопросы GAIA «концептуально просты для человека, но сложны для большинства продвинутых ИИ». Они протестировали тест на людях и GPT-4 и обнаружили, что люди набрали 92%, а GPT-4 с плагинами — только 15%.
«Это заметное различие в производительности контрастирует с недавней тенденцией, когда LLM (большие языковые модели) превосходят человека в задачах, требующих профессиональных навыков, например, в юриспруденции или химии», — говорится в статье.
GAIA ориентирован на человеческую компетентность, а не на экспертные знания
Исследователи предлагают не фокусироваться на сложных для человека задачах, а использовать в качестве эталонов задачи, демонстрирующие способности системы искусственного интеллекта, сходные с человеческими.
Методология GAIA позволила исследователям разработать 466 реальных вопросов с однозначными ответами. Триста ответов хранятся в закрытом виде для создания публичной таблицы лидеров GAIA, а 166 вопросов и ответов были выпущены в качестве набора для разработки.
«Решение GAIA станет важной вехой в исследованиях ИИ», — сказал ведущий автор проекта Грегуар Миалон из компании Meta* AI. «Мы считаем, что успешное решение GAIA станет важной вехой на пути к созданию следующего поколения систем искусственного интеллекта».
Разрыв в производительности человека и ИИ
На сегодняшний день лидирующие позиции в GAIA занимает GPT-4 с вручную подобранными плагинами, точность которого составляет 30%. По мнению создателей бенчмарка, система, решающая GAIA, в разумные сроки может быть признана искусственным интеллектом общего назначения.
«Задачи, сложные для человека, не обязательно сложны для современных систем», — говорится в статье, где критикуется распространенная практика тестирования ИИ на сложных тестах по математике, естественным наукам и праву.
Вместо этого GAIA фокусируется на таких вопросах, как «В каком городе проходил конкурс «Евровидение 2022″, согласно официальному сайту?» и «Сколько изображений содержится в последней статье Lego в Википедии 2022 года?».
«Мы полагаем, что появление искусственного интеллекта общего назначения (AGI) зависит от способности системы проявлять в таких вопросах такие же способности, как и средний человек», — пишут исследователи.
GAIA может определить будущую траекторию развития ИИ
Выпуск GAIA представляет собой новое интересное направление исследований в области ИИ, которое может иметь широкие последствия. Сосредоточившись на человеческой компетентности в решении повседневных задач, а не на специализированных знаниях, GAIA выводит область исследований за рамки более узких критериев ИИ.
Если будущие системы смогут продемонстрировать человеческий здравый смысл, адаптивность и способность рассуждать на заданном GAIA уровне, это будет означать, что они достигнут уровня искусственного интеллекта общего назначения (AGI) в практическом смысле. Это может ускорить внедрение ассистентов, сервисов и продуктов на основе ИИ.
Однако авторы предупреждают, что современным чат-ботам еще предстоит пройти долгий путь к решению вопросов GAIA. Их работа показывает существующие ограничения в рассуждениях, использовании инструментов и работе с различными ситуациями в реальном мире.
По мере того как исследователи будут решать задачи GAIA, их результаты будут свидетельствовать о прогрессе в создании более способных, общих и надежных систем ИИ. Но такие эталоны, как GAIA, также заставляют задуматься о том, как сформировать ИИ, который принесет пользу человечеству.
«Мы считаем, что успешное решение GAIA станет важной вехой на пути к созданию следующего поколения систем ИИ», — пишут исследователи. «Таким образом, GAIA не только стимулирует технический прогресс, но и может помочь направить ИИ в русло, где особое внимание уделяется таким общим человеческим ценностям, как эмпатия, творчество и этические суждения».
Вы можете посмотреть таблицу лидеров бенчмарка GAIA здесь, чтобы узнать, какие ИИ нового поколения показывают наилучшие результаты в этой оценке.
*Meta признана экстремистcкой организацией в России.