ChatGPT становится «ленивым», и люди проверяют «гипотезу зимних каникул» в качестве причины

В конце ноября некоторые пользователи ChatGPT начали замечать, что ChatGPT-4 становится все более «ленивым», отказываясь выполнять некоторые задачи или возвращая упрощенные результаты. С тех пор OpenAI признала, что это проблема, но компания не уверена в ее причинах. Возможно, ответ кроется в том, что некоторые называют «гипотезой зимних каникул». Хотя она не доказана, тот факт, что исследователи ИИ воспринимают ее всерьез, показывает, насколько странным стал мир языковых моделей ИИ.

«Мы слышали все ваши отзывы о том, что GPT4 стал более ленивым!» — написал официальный аккаунт ChatGPT на X в четверг. «Мы не обновляли модель с 11 ноября, и это определенно не намеренно. Поведение модели может быть непредсказуемым, и мы пытаемся это исправить».

В пятницу аккаунт на X под ником Martian открыто задался вопросом, может ли LLM моделировать сезонную депрессию. Позже Майк Свупски написал на X: «Что, если он узнал из своих обучающих данных, что люди обычно замедляются в декабре и откладывают большие проекты до нового года, и именно поэтому он стал более ленивым в последнее время?».

Поскольку системная подсказка для ChatGPT сообщает боту текущую дату, люди отметили, что некоторые начали думать, что в этой идее может быть какой-то смысл. Зачем выдвигать такое странное предположение? Потому что исследования показали, что большие языковые модели, такие как GPT-4, на которой работает платная версия ChatGPT, реагируют на человеческое поощрение, например, на просьбу бота «сделать глубокий вдох» перед решением математической задачи. Люди также менее официально экспериментировали с тем, чтобы сообщить LLM, что он получит чаевые за выполнение работы, или, если модель ИИ ленится, сказать боту, что у вас нет пальцев, что, похоже, помогает увеличить объем выдаваемых результатов.

В понедельник разработчик по имени Роб Линч сообщил на сайте X, что в выходные протестировал GPT-4 Turbo через API и обнаружил более короткие результаты, когда модель получила декабрьскую дату (4 086 символов), чем когда она получила майскую дату (4 298 символов). Линч утверждал, что результаты статистически значимы. Однако в ответе исследователя ИИ Яна Аравжо говорится, что он не смог воспроизвести результаты со статистической значимостью. Стоит отметить, что воспроизведение результатов с помощью LLM может быть затруднено из-за случайных элементов, которые меняют результаты с течением времени, поэтому люди берут на анализ большое количество ответов.

На момент написания этой статьи другие люди заняты проведением тестов, и результаты пока неубедительны. Этот эпизод — окно в быстро развивающийся мир LLM и взгляд на исследование в основном неизвестной территории компьютерных наук. Как отметил в своем твите исследователь ИИ Джеффри Литт, «самая забавная теория на свете, и я надеюсь, что это реальное объяснение. Независимо от того, реально это или нет, мне нравится, что это нельзя исключить».

История лени

Одно из сообщений, положившее начало недавней тенденции отмечать, что ChatGPT становится «ленивым», появилось 24 ноября на Reddit. Один из пользователей написал, что попросил ChatGPT заполнить CSV-файл множеством записей, но ChatGPT отказался, сказав: «Из-за обширности данных полное извлечение всех продуктов будет довольно долгим. Однако я могу предоставить файл с одной записью в качестве шаблона, а вы сможете заполнить остальные данные по мере необходимости».

1 декабря сотрудник OpenAI Уилл Депью подтвердил в посте X, что OpenAI знает о сообщениях о лени и работает над потенциальным исправлением. «Я не говорю, что у нас нет проблем с чрезмерными отказами (они определенно есть) или других странных вещей (мы работаем над исправлением недавней проблемы с ленью), но это результат итеративного процесса обслуживания и попыток поддержать так много сценариев использования одновременно», — написал он.

Также возможно, что ChatGPT всегда был «ленив» с некоторыми ответами (поскольку ответы меняются случайным образом), а недавняя тенденция заставила всех обратить внимание на случаи, в которых они происходят. Например, в июне кто-то пожаловался на лень GPT-4 на Reddit. Может быть, ChatGPT был в летнем отпуске?

Кроме того, люди жаловались на то, что GPT-4 теряет свои возможности с момента выхода. Эти утверждения были противоречивыми и трудно проверяемыми, что делает их весьма субъективными.

Как пошутил Итан Моллик на X, по мере того как люди открывают новые способы для улучшения результатов LLM, подсказки для больших языковых моделей становятся все более странными и странными: «Сейчас май. Ты очень способный. У меня нет рук, поэтому делай все сам. Многие люди умрут, если это не будет сделано хорошо. Ты действительно можешь это сделать и ты потрясающий. Сделай глубокий вдох и хорошенько все обдумай. От этого зависит моя карьера. Думай шаг за шагом».

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *