GPT-3 отлично справляется с тестами на логическое мышление

Большие языковые модели — это класс AI-алгоритмов, которые основаны на большом количестве вычислительных узлов, и в равной степени большом количестве связей между ними. Их можно обучить выполнению различных функций, но в основном они известны своими возможностями в области человеческих языков.

Модели, обученные просто предсказывать следующее слово, которое появится в тексте, могут генерировать разговоры и эссе, похожие на человеческие, однако с некоторыми тревожными проблемами точности. Эти системы продемонстрировали различные виды поведения, которые, похоже, намного превосходят простые языковые возможности, на которых они были обучены.

К этому списку, по-видимому, можно добавить и аналогии, которыми модели овладели случайно. Команда из Калифорнийского университета в Лос-Анджелесе протестировала большую языковую модель GPT-3, используя вопросы, которые должны быть знакомы любым американцам, проводившим время над стандартизированными тестами вроде SAT. Во всех вариантах этих вопросов, за исключением одного, GPT-3 превзошла студентов, которые, предположительно, справлялись с этими тестами всего несколько лет назад. Исследователи предполагают, что это указывает на то, что моделям удалось овладеть логическим мышлением на основе аналогий.

Разные виды мышления

Команда из UCLA во главе с Тейлором Веббом, Китом Холиоуком и Хонцзин Лу, опиралась на обширную коллекцию способов, которыми предыдущие исследования проверяли способность людей мыслить по аналогии. Классической формой этого является завершение сравнения — подумайте о «холодный по отношению ко льду то же, что горячий по отношению к _» — где вам нужно выбрать наилучшее завершение из набора вариантов.

Связанные тесты включают в себя выявление правил преобразования серии букв. Например, если серия a b c d преобразуется в a b c e, то правило заключается в замене последней буквы серии на следующую по алфавиту. Понимание правила участником проверяется путём просьбы его использовать это правило для преобразования другого набора букв. Аналогичные тесты с цифрами могут включать сложные правила, такие как «только четные числа по порядку, но могут быть по возрастанию или убыванию».

Во всех этих тестах GPT-3 последовательно превосходила студентов, хотя разница зависела от конкретного теста. Исследователи также обнаружили, что программа может разрабатывать правила на основе ряда чисел, а затем применять их к другой области, такой как описания температур вроде «теплый» и «прохладный». Они пришли к выводу, что «эти результаты предполагают, что GPT-3 разработала абстрактное понятие последовательности, которое может быть гибко обобщено между различными областями».

Однако были и некоторые странные сбои. Программа не всегда распознавала, когда перед ней ставятся такие задачи, показывая большой процент ошибок, если не было запроса на ответ или если вопрос был сформулирован в виде предложения, а не набора значений.

Извлечение смысла из историй

Ситуация для студентов колледжей была не столь мрачной. Они намного лучше, чем GPT-3, могли извлекать смысл из текста. Это проверялось путем предоставления участникам, человеку или программному обеспечению, абзаца в виде истории, а затем попросить их определить, какая из двух дополнительных историй наиболее близко напоминает оригинал. Только в одном из вариантов сохранялись такие вещи, как причинно-следственные связи, как в оригинальной истории, и студенты колледжей гораздо чаще определяли его, чем программное обеспечение.

Однако исследователи отмечают, что они провели предварительные тесты с GPT-4, обновленной версией программы, и она показала гораздо лучшие результаты. Так что студентам не следует чувствовать уверенность в том, что их преимущество сохранится.

В последнем наборе тестов, описанных в статье, участникам давали задачу без очевидного решения, а затем предоставляли аналогичную историю, которая включала решение. Люди обычно могут извлечь урок из истории, а затем применить этот урок к исходной проблеме. И GPT-3 тоже могла сделать то же самое во многих случаях.

Но ее легко было заставить ошибиться. Добавьте несколько отвлекающих историй, и программа не сможет установить аналогию, если ей не дать конкретную подсказку сделать это — хотя, получив подсказку, она обычно могла определить наиболее уместную историю. А когда ей предъявляли задачу, требующую физического решения, программа обычно предлагала ответы, которые были механически невозможны. Итак, хотя она может определять аналогии, она не понимает, как ограничивать аналогии на основе знаний из других областей.

Что это говорит нам?

Можно посмотреть на эти результаты и сказать, что ИИ овладел логическим мышлением на основе аналогий или по крайней мере более способен к этому, чем многие люди. Но ситуация намного сложнее. Например, исследователи указывают, что было бы невозможно обучить ИИ человеческому языку и не развить у него способности обрабатывать аналогии: «Человеческий естественный язык изобилует аналогиями; следовательно, точное предсказание естественного языка, вероятно, требует способности оценивать аналогии».

Кроме того, конкретные тесты, проведенные здесь, часто имели прямые параллели с обучением больших языковых моделей. GPT-3 и ей подобные учатся на основе их способности предсказывать следующее слово в тексте, в то время как в нескольких тестах от нее требовалось предсказать следующий элемент в ряду. Таким образом, возможно, что программа получала положительное подкрепление за правильные ответы.

И наконец, часть человеческой способности к логическому мышлению заключается в том, чтобы цепляться за успешные кусочки мышления и применять их в новых обстоятельствах. GPT-3, напротив, теряет все, кроме своих базовых возможностей, каждый раз при сбросе. «GPT-3 может использовать общую историю, для руководства своим решением (аналогичной проблемы), — отмечают авторы, — но как только ее контекстный буфер очищается, она возвращается к предоставлению своего неаналогичного решения проблемы — система ничему не научилась в процессе обработки аналогии».

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *