Согласно новому исследованию ученых из Стэнфордского университета и Калифорнийского университета в Беркли, производительность ChatGPT может сильно колебаться, с увеличением ошибок в его выводе со временем, что делает его «сложным» для стабильной интеграции в рабочие процессы бизнеса.
В статье «Как меняется поведение ChatGPT со временем?» ученые пытались выяснить, приводят ли обновления модели искусственного интеллекта, направленные на улучшение некоторых аспектов приложения, к ухудшению его способностей к генерации.
Они выбрали для измерения GPT-3.5 и GPT-4, две самые популярные крупные языковые модели, которые используются для работы с ChatGPT в бесплатной и платной версиях.
Они обнаружили, что производительность и поведение как бесплатной версии чат-бота OpenAI (работающей на основе GPT 3.5), так и платной версии за $20 в месяц (работающей на основе GPT-4) могут «сильно меняться со временем».
В рамках исследования были протестированы версии GPT-3.5 и GPT-4 от марта 2023 года и июня 2023 года на математических задачах, ответах на чувствительные вопросы, генерации кода и визуальном рассуждении, которое предполагает решение задач с использованием графических представлений.
Они обнаружили, что способность GPT-4 справляться с математическими задачами снизилась с 97,6% в марте до всего 2,4% в июне. Длина ответов GPT-4 также сократилась на более чем 90%.
Тем временем, бесплатная версия GPT 3.5 показала лучшую точность в решении математических задач, увеличившись с 7,4% в марте до 86,8% в июне.
В отношении генерации кода, только 10% выводов GPT-4 в июне были непосредственно исполняемыми, по сравнению с 50% в марте. Исполнимые выводы GPT 3.5 также снизились до всего 2% с 22% в марте.
Более того, премиальная версия ChatGPT значительно сократила количество ответов на потенциально чувствительные вопросы с 21% в марте до всего 5% в июне.
Результаты показывают, что одна и та же крупная языковая модель может «существенно изменяться в относительно короткий период времени».
Результаты исследования выявляют новый риск для бизнеса, связанный с крупными языковыми моделями
«В настоящее время неясно, когда и как обновляются GPT-3.5 и GPT-4, и неясно, как каждое обновление отражает поведение этих языковых моделей», написали исследователи.
«Эти неизвестные усложняют стабильную интеграцию языковых моделей в более крупные рабочие процессы», заключили они. Если ответ LLM на запрос с точки зрения точности и форматирования «внезапно меняется, это может нарушить последующий процесс. Это также затрудняет воспроизведение результатов от ‘той же’ LLM, делая это сложным, если не невозможным».
В результате они отметили необходимость «непрерывно оценивать и анализировать» поведение LLM в производственных приложениях.
Для компаний, полагающихся на услуги крупных языковых моделей, исследователи рекомендуют внедрить аналогичные мониторинговые анализы, описанные в их статье.
Исследователи планируют продолжить долгосрочное исследование. Данные оценки и ответы доступны на GitHub.
Развитие возможностей ChatGPT с течением времени
Крупные языковые модели, такие как ChatGPT, могут регулярно обновляться с течением времени для улучшения сервиса. На прошлой неделе OpenAI добавила «Пользовательские инструкции» для персонализированных выводов и инструменты анализа данных, включая возможность выполнения кода через Code Interpreter.
Несколько пользователей в социальных сетях жаловались на способности генерации ChatGPT, утверждая, что приложение стало хуже.
Но вице-президент по продукту OpenAI Питер Велиндер заявил, что GPT-4 не стал «глупее», но предположил, что при более частом использовании приложения «вы начинаете замечать проблемы, которые раньше не замечали».