Исследование утверждает, что ChatGPT теряет способности, но некоторые эксперты не уверены

Во вторник исследователи из Стэнфордского университета и Калифорнийского университета в Беркли опубликовали научную статью, которая, по их словам, демонстрирует изменения в результатах работы GPT-4 со временем. Статья поддерживает распространенное, но не доказанное убеждение, что языковая модель искусственного интеллекта стала хуже справляться с задачами программирования и композиции за последние несколько месяцев. Некоторые эксперты не уверены в результатах, но они говорят, что отсутствие определенности указывает на более серьезную проблему в работе OpenAI с выпуском моделей.

В исследовании, опубликованном на arXiv и названном «Как меняется поведение ChatGPT со временем?», Линджиао Чен, Матей Захария и Джеймс Зу подвергают сомнению постоянную производительность больших языковых моделей (LLM) OpenAI, в частности GPT-3.5 и GPT-4. С использованием API-доступа они тестировали версии этих моделей за март и июнь 2023 года на задачах решения математических проблем, ответа на чувствительные вопросы, генерации кода и визуального мышления. Особенно заметно, что способность GPT-4 идентифицировать простые числа, по их данным, резко упала с точности в 97,6 процента в марте до всего 2,4 процента в июне. Странно, но GPT-3.5 показала улучшение производительности за тот же период.

Это исследование появилось вслед за частыми жалобами на то, что GPT-4 субъективно ухудшилась в производительности за последние несколько месяцев. Популярные теории о причинах включают «дистилляцию» моделей OpenAI для сокращения вычислительной нагрузки в стремлении ускорить вывод и сохранить ресурсы GPU, дополнительное обучение для снижения вредных результатов, которые могут иметь непреднамеренные последствия, а также ряд неподтвержденных теорий заговора, таких как снижение возможностей GPT-4 в области программирования, чтобы больше людей платили за GitHub Copilot.

Тем временем, OpenAI последовательно отрицает любые утверждения о снижении возможностей GPT-4. Недавно вице-президент по продукту OpenAI Питер Велиндер твитнул: «Нет, мы не сделали GPT-4 глупее. Скорее наоборот: каждая новая версия становится умнее предыдущей. Текущая гипотеза: когда вы используете его более интенсивно, вы начинаете замечать проблемы, которые раньше не замечали».

В то время как это новое исследование может показаться убедительным доказательством предположений критиков GPT-4, другие говорят, что это не так. Профессор компьютерных наук Принстонского университета Арвинд Нараянан считает, что его результаты явно не доказывают снижение производительности GPT-4 и могут быть согласованы с корректировками, внесенными OpenAI. Например, в отношении измерения возможностей генерации кода он критикует исследование за оценку непосредственно возможности выполнения кода, а не его правильности.

«Изменение, о котором они сообщают, заключается в том, что новая модель GPT-4 добавляет в свой вывод не-кодовый текст. Они не оценивают правильность кода (странно)», — написал он в твиттере. «Они просто проверяют, можно ли выполнить код непосредственно. Так что попытка новой модели быть более полезной работает против нее».

Исследователь искусственного интеллекта Саймон Уиллисон также оспаривает выводы статьи. «Мне это кажется не очень убедительно», — сказал он. «Значительная часть их критики связана с тем, обернут ли вывод кода в обратные кавычки Markdown или нет». Он также находит другие проблемы с методологией статьи. «Мне кажется, что они использовали температуру 0,1 для всего», — сказал он. «Это делает результаты немного более детерминированными, но очень мало реальных запросов выполняется при такой температуре, поэтому я не думаю, что это много говорит о реальных сценариях использования моделей».

Пока Уиллисон считает, что любые замеченные изменения в возможностях GPT-4 связаны с тем, что новизна LLM исчезает. Ведь GPT-4 вызвала волну паники относительно ИИ вскоре после своего запуска и однажды была протестирована на способность захватить мир. Теперь, когда технология стала более обыденной, ее недостатки кажутся очевидными.

«Когда GPT-4 появилась, мы все еще были в состоянии, когда все, что могли делать LLM, казалось чудом», — сказал Уиллисон. «Теперь это прошло, и люди пытаются работать с ними, чтобы выполнять реальную работу, поэтому их недостатки становятся более очевидными, что делает их менее способными, чем они казались сначала».

На данный момент OpenAI осведомлена о новом исследовании и говорит, что следит за сообщениями о снижении возможностей GPT-4. «Команда знает о сообщенных отклонениях и изучает их», — написал в твиттере Логан Килпатрик, руководитель отдела разработки OpenAI, в среду.

Хотя статья Чена, Захарии и Зу может быть не идеальной, Уиллисон сочувствует сложности точного и объективного измерения языковых моделей. Критики раз за разом указывают на закрытый подход OpenAI к искусственному интеллекту, который для GPT-4 не раскрывает источник тренировочных материалов, исходный код, веса нейронной сети и даже документ, описывающую ее архитектуру.

Одним из решений этой нестабильности для разработчиков и неопределенности для исследователей может быть использование открытых или доступных исходных кодов моделей, таких как Llama от Meta*. С широко распространенными файлами весов (ядро данных нейронной сети модели) эти модели могут позволить исследователям работать на одной и той же основе и предоставлять повторяемые результаты со временем без того, чтобы компания (например, OpenAI) внезапно меняла модели или отзывала доступ через API.

В этом контексте ИИ исследователь доктор Саша Луччиони из Hugging Face также считает, что непрозрачность OpenAI является проблемой. «Любые результаты по закрытым моделям не могут быть воспроизведены и проверены и, следовательно, с научной точки зрения мы сравниваем енотов и белок», — сказала она. «Не на ученых должен лежать постоянный мониторинг развернутых LLM. Создатели моделей должны предоставить доступ к исходным моделям, по крайней мере, для аудита».

Луччиони отметила отсутствие стандартизированных бенчмарков в этой области, которые могли бы облегчить сравнение разных версий одной и той же модели. Она говорит, что с каждым выпуском модели, разработчики моделей искусственного интеллекта должны включать результаты общепризнанных бенчмарков, таких как SuperGLUE и WikiText, а также бенчмарков на предмет смещения, таких как BOLD и HONEST. «Они должны предоставлять фактические результаты, а не только высокоуровневые метрики, чтобы мы могли посмотреть, где они хороши и где они не справляются», — говорит она.

Уиллисон согласен. «Честно говоря, отсутствие документации и прозрачности может быть самым важным аспектом», — сказал он. «Как мы можем создавать надежное программное обеспечение на основе платформы, которая меняется полностью не задокументированным и загадочным способом каждые несколько месяцев?»

*Meta признана экстремистcкой организацией в России.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *