Как Google и Калифорнийский университет в Лос-Анджелесе подталкивают ИИ к выбору следующего действия для получения лучшего ответа

Искусственный интеллект впечатлил публику тем, как он выдает ответ на любой запрос. Однако качество ответа часто оставляет желать лучшего, потому что программы, подобные ChatGPT, просто реагируют на текстовый ввод без особой привязки к предметной области и могут давать откровенную ложь.

Недавний исследовательский проект Калифорнийского университета и Google позволяет большим языковым моделям, таким как ChatGPT, выбирать конкретный инструмент — будь то веб-поиск или оптическое распознавание символов, — который затем может искать ответ в несколько шагов из альтернативного источника.

Результат — примитивная форма «планирования» и «рассуждения», способ для программы определить на каждом этапе, как следует подходить к вопросу, и, решив его, определить, было ли решение удовлетворительным.

Эта работа, названная AVIS (Autonomous Visual Information Seeking with Large Language Models) Циню Ху и его коллег из Калифорнийского университета в Лос-Анджелесе, при участии соавторов из Google Research, опубликована на сервере препринтов arXiv.

AVIS построена на языковой модели Pathways от Google, или PaLM, большой языковой модели, которая породила множество версий, адаптированных к различным подходам и экспериментам в генеративном ИИ.

AVIS продолжает недавние исследования, направленные на превращение программ машинного обучения в «агентов», действующих шире, чем просто предсказание следующего слова. Среди них BabyAGI, «система управления задачами на основе ИИ», представленная в этом году, и PaLM*E от Google, представленная в этом году, которая может давать роботу инструкции по выполнению ряда действий в физическом пространстве.

Большим прорывом программы AVIS является то, что, в отличие от BabyAGI и PaLM*E, она не следует предварительно заданному курсу действий. Вместо этого она использует алгоритм, называемый «Планировщик», который выбирает между набором действий на лету по мере возникновения каждой ситуации. Эти варианты генерируются по мере того, как языковая модель оценивает введенный текст, разбивая его на подвопросы, а затем сопоставляя эти подвопросы с набором возможных действий.

Даже выбор действий здесь представляет собой новаторский подход.

Ху и его коллеги провели опрос 10 человек, которые должны были отвечать на одни и те же вопросы — например, «Как называется насекомое?», изображенное на картинке. При этом фиксировался выбор инструментов, таких как Google Image Search.

Затем авторы ввели эти примеры человеческого выбора в то, что они называют «графом переходов», моделью того, как люди выбирают инструменты в каждый момент.

Планировщик затем использует этот граф, выбирая из «релевантных в контексте примеров […] которые собраны из решений, ранее принятых людьми». Это способ заставить программу моделировать себя на основе выбора людей, по сути, используя прошлые примеры просто как еще один ввод для языковой модели.

Чтобы проверить свой выбор, программа AVIS имеет второй алгоритм, «Аналитик», который оценивает, насколько полезен был каждый инструмент после того, как он был опробован языковой моделью, прежде чем решить, стоит ли выводить ответ на исходный вопрос. Если конкретный выбор инструмента оказался бесполезным, Аналитик вернет Планировщик к работе.

Ху и команда протестировали AVIS на некоторых стандартных автоматизированных тестах ответов на визуальные вопросы, таких как OK-VQA, представленный в 2019 году исследователями из Университета Карнеги-Меллона. На этом тесте AVIS достигла «точности 60,2, что выше, чем у большинства существующих методов, разработанных для этого набора данных», сообщают они. Другими словами, общий подход, похоже, превосходит методы, тщательно адаптированные для выполнения конкретной задачи, пример возрастающей универсальности ИИ.

В заключение Ху и команда отмечают, что в дальнейших работах планируют выйти за рамки просто вопросов по изображениям. «Мы намерены распространить нашу основанную на ИИ динамическую систему принятия решений на решение других задач, требующих рассуждений», — пишут они.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *