В препринте исследовательской работы под названием «Проходит ли GPT-4 тест Тьюринга?» двое исследователей из Калифорнийского университета в Сан-Диего сравнили языковую модель ИИ GPT-4 от OpenAI с участниками-людьми, GPT-3.5 и ELIZA, чтобы выяснить, кто из них сможет с наибольшим успехом убедить людей принять себя за человека. В ходе исследования, не прошедшего рецензирование, выяснилось, что участники правильно идентифицировали других людей только в 63 процентах случаев, а компьютерная программа 1960-х годов превзошла модель искусственного интеллекта, используемую в бесплатной версии ChatGPT.
Даже с учетом ограничений и оговорок, о которых мы расскажем ниже, статья представляет собой наводящее на размышления сравнение подходов к моделям ИИ и поднимает дополнительные вопросы об использовании теста Тьюринга для оценки эффективности моделей ИИ.
Британский математик и ученый-компьютерщик Алан Тьюринг впервые придумал тест Тьюринга в 1950 году под названием «Игра в имитацию». С тех пор он стал известным, но противоречивым критерием для определения способности машины имитировать человеческий разговор. В современных версиях теста судья обычно разговаривает либо с человеком, либо с чат-ботом, не зная, кто из них кто. Если судья не может достоверно отличить чат-бота от человека в определенном проценте случаев, считается, что чат-бот прошел тест. Порог прохождения теста субъективен, поэтому никогда не было единого мнения о том, что считать успешным прохождением.
В недавнем исследовании, опубликованном на сайте arXiv в конце октября, ученые Калифорнийского университета в Сан-Диего Кэмерон Джонс (аспирант кафедры когнитивных наук) и Бенджамин Берген (профессор кафедры когнитивных наук университета) создали сайт turingtest.live, на котором они разместили в Интернете реализацию теста Тьюринга для двух игроков с целью посмотреть, насколько хорошо GPT-4, когда ему задают различные вопросы, может убедить людей в том, что он человек.
На сайте люди-дознаватели общались с различными «свидетелями», в качестве которых выступали либо другие люди, либо модели ИИ, включая вышеупомянутые GPT-4, GPT-3.5 и ELIZA, основанная на правилах диалоговая программа 1960-х годов. «Два человека были случайно назначены на роли допрашивающего и свидетеля», — пишут исследователи. «Свидетели должны были убедить допрашивающего, что они люди. Игроки, встречавшиеся с моделями ИИ, всегда были дознавателями».
В эксперименте приняли участие 652 человека, которые прошли в общей сложности 1 810 сессий, из которых 1 405 игр были проанализированы после исключения некоторых сценариев, таких как повторяющиеся игры с ИИ или личное знакомство между участниками и свидетелями, которые иногда сидели в одной комнате.
Удивительно, но ELIZA, разработанная в середине 1960-х годов компьютерщиком Джозефом Вейценбаумом в Массачусетском технологическом институте, показала относительно высокие результаты в ходе исследования, достигнув 27 процентов успеха. GPT-3.5, в зависимости от подсказки, показала 14 процентов успеха, что ниже ELIZA. GPT-4 показала 41 процент успеха, уступая только реальным людям.
GPT-3.5, базовая модель бесплатной версии ChatGPT, была специально настроена OpenAI на то, чтобы не выдавать себя за человека, что может частично объяснять ее низкие результаты. В своем посте на сайте X профессор информатики из Принстона Арвинд Нараянан написал: «Важный контекст статьи «Проходит ли GPT-4 тест Тьюринга?». Как всегда, тестирование поведения не говорит нам о возможностях». Далее он продолжил: «ChatGPT настроен на формальный тон, не выражает мнения и т. д., что делает его менее похожим на человека. Авторы пытались изменить это с помощью подсказок, но у них есть ограничения. Лучший способ выдать себя за человека, общающегося в чате, — это настройка по логам человеческих чатов».
Далее авторы рассуждают о причинах относительного успеха ELIZA в исследовании:
«Во-первых, ответы ELIZA, как правило, консервативны. Хотя в целом это создает впечатление, что собеседник не хочет сотрудничать, это не позволяет системе давать явные подсказки, такие как неверная информация или неясные знания. Во-вторых, ELIZA не демонстрирует тех признаков, которые допрашивающие привыкли ассоциировать с помощниками LLM, таких как доброжелательность, дружелюбие и многословие. И наконец, некоторые дознаватели сообщили, что ELIZA «слишком плоха», чтобы быть современной моделью ИИ, и поэтому более вероятно, что это человек, намеренно проявляющий нежелание сотрудничать».
Во время сессий допрашивающие чаще всего использовали такие стратегии, как светская беседа и вопросы о знаниях и текущих событиях. Более успешные стратегии включали в себя разговор на неанглийском языке, расспросы о времени или текущих событиях, а также прямое обвинение свидетеля в том, что он является моделью ИИ.
Участники выносили свои суждения на основе полученных ответов. Интересно, что в ходе исследования выяснилось, что участники основывали свои решения в первую очередь на лингвистическом стиле и социально-эмоциональных чертах, а не только на восприятии интеллекта. Участники отмечали, когда ответы были слишком формальными или неформальными, когда ответам не хватало индивидуальности или они казались общими. Исследование также показало, что образование участников и их знакомство с большими языковыми моделями (LLM) не оказали существенного влияния на их успех в обнаружении ИИ.
Авторы исследования признают его недостатки, в том числе потенциальную предвзятость выборки за счет рекрутинга из социальных сетей и отсутствие стимулов для участников, что могло привести к тому, что некоторые люди не справились с заданной ролью. Они также говорят, что их результаты (особенно результаты работы ELIZA) могут подтвердить распространенную критику теста Тьюринга как неточного способа измерения машинного интеллекта. «Тем не менее, — пишут они, — мы утверждаем, что тест сохраняет свою актуальность в качестве основы для измерения способности к свободному социальному взаимодействию и обману, а также для понимания человеческих стратегий адаптации к этим устройствам».
GPT-4: провал. Люди: прошли?
В итоге авторы исследования пришли к выводу, что GPT-4 не соответствует критериям успеха теста Тьюринга, не достигая ни 50-процентного показателя успеха, ни превосходя показатель успеха участников-людей. Исследователи предполагают, что при правильной разработке GPT-4 или аналогичные модели в конечном итоге смогут пройти тест Тьюринга. Однако сложность заключается в том, чтобы создать подсказку, имитирующую тонкости человеческого стиля разговора. Как и GPT-3.5, GPT-4 также был обучен не выдавать себя за человека. «Вполне вероятно, что существуют гораздо более эффективные подсказки, и поэтому наши результаты недооценивают потенциальную эффективность GPT-4 в тесте Тьюринга», — пишут авторы.
Что касается людей, которым не удалось убедить других людей в том, что они настоящие, то это скорее отражает характер и структуру теста и ожидания судей, а не какой-то конкретный аспект человеческого интеллекта. «Некоторые свидетели-люди занимались «троллингом», выдавая себя за ИИ», — пишут авторы. «В равной степени некоторые дознаватели ссылались на такое поведение в обосновании вердиктов, которые выносились в пользу человека. Как следствие, наши результаты могут недооценивать человеческие способности и переоценивать способности ИИ».
Предыдущее исследование теста Тьюринга, проведенное AI21 Labs в мае, показало, что люди правильно идентифицировали других людей примерно в 73 процентах случаев. Неофициально можно предположить, что люди могут добиться успеха гораздо чаще, чем 63 или 73 процента случаев. Действительно ли нам следует ожидать более высоких показателей успеха для людей или нет, неясно, но интервал в 27-37 процентов неудач может иметь значение для будущего, где люди могут использовать модели ИИ для обмана других людей.
В другом исследовании, проведенном в ноябре (Miller, et al.), ученые обнаружили, что люди считают, что созданные ИИ изображения людей выглядят более реальными, чем настоящие люди. Учитывая эти данные и допуская возможность совершенствования технологий, если модель ИИ сможет преодолеть 63-73-процентный барьер, ее общение гипотетически может показаться более человечным, чем общение с реальным человеком. Будущее обещает быть очень интересным.