Исследователи в своей статье, опубликованной 10 июля в рецензируемом журнале Patterns, показывают, что программы, часто используемые для определения, написан текст искусственным интеллектом или нет, склонны ложно помечать статьи, написанные носителями неанглийского языка, как созданные искусственным интеллектом. Исследователи предостерегают от использования таких инструментов обнаружения текста, так как их ненадежность может негативно сказаться на отдельных людях, включая студентов и тех, кто подает заявки на работу.
«Наши текущие рекомендации — быть чрезвычайно осторожными и, возможно, избегать использования этих инструментов обнаружения насколько это возможно», — говорит старший автор Джеймс Зу из Стэнфордского университета. «Это может иметь серьезные последствия, если такие инструменты используются для оценки таких вещей, как заявки на работу, эссе для поступления в колледж или школьные задания».
Искусственно интеллектуальные инструменты, такие как чат-бот ChatGPT от OpenAI, могут создавать эссе, решать научные и математические задачи и производить компьютерный код. Преподаватели в США все более обеспокоены использованием искусственного интеллекта в работе студентов, и многие из них начали использовать инструменты обнаружения GPT для проверки заданий студентов. Однако надежность и эффективность этих инструментов остаются непроверенными.
Зу и его команда протестировали семь популярных инструментов обнаружения GPT. Они прогнали 91 эссе на английском языке, написанных носителями неанглийских языков для широко признанного теста на английское владение, называемого TOEFL (Test of English as a Foreign Language), через эти инструменты. Эти платформы неправильно пометили более половины эссе как созданные искусственным интеллектом, причем один из инструментов отметил почти 98% эссе как написанные ИИ. В сравнении с этим, инструменты обнаружения правильно классифицировали более 90% эссе, написанных студентами восьмого класса из США, как созданные человеком.
Зу объясняет, что алгоритмы этих инструментов работают на основе оценки «перплексии текста», то есть насколько неожиданным является выбор слов в эссе. «Если вы используете обычные английские слова, инструменты дадут низкую оценку перплексии, что означает, что мое эссе вероятно будет помечено как созданное ИИ. Если вы используете сложные и более изысканные слова, то оно скорее будет классифицировано как написанное человеком алгоритмами», — говорит он. Это происходит потому, что большие языковые модели, такие как ChatGPT, обучены генерировать текст с низкой перплексией, чтобы лучше имитировать общение среднестатистического человека, добавляет Зу.
В результате, более простой выбор слов, используемый носителями неанглийских языков, делает их более уязвимыми для пометки как использование ИИ.
Затем команда подвергла написанные людьми эссе TOEFL анализу в ChatGPT и попросила его редактировать текст, используя более сложный язык, включая замену простых слов сложной лексикой. Инструменты обнаружения GPT пометили эти отредактированные с помощью ИИ эссе как написанные человеком.
«Мы должны быть очень осторожны при использовании любого из этих инструментов в классе, потому что они все еще имеют много предубеждений и их легко обмануть с минимальным изменением задания», — говорит Зу. Использование инструментов обнаружения GPT также может иметь последствия за пределами сферы образования. Например, поисковые системы, такие как Google, снижают ценность контента, созданного ИИ, что может вызвать непреднамеренные затруднения для авторов, не являющихся носителями английского языка.
В то время как инструменты искусственного интеллекта могут оказывать положительное влияние на учебный процесс студентов, инструменты обнаружения GPT должны быть дальше усовершенствованы и протестированы перед их внедрением. Зу говорит, что одним из способов улучшения этих инструментов может быть обучение алгоритмов на более разнообразных типах письма.
Например, включение образцов текстов, написанных носителями неанглийских языков, и обучение моделей на таких данных может помочь устранить предвзятость и сделать инструменты обнаружения более точными и надежными.
Другим решением может быть внедрение систем, которые не только оценивают перплексию текста, но и учитывают другие языковые и стилистические особенности, чтобы более точно определять, написан ли текст человеком или искусственным интеллектом.
Повышение осведомленности о проблеме и проведение дальнейших исследований в этой области также могут способствовать разработке более надежных и объективных инструментов обнаружения текста, которые не подвержены предвзятости против носителей неанглийского языка.