В исследовании, опубликованном в журнале Scientific Reports, исследовательская группа из Университета Пассау сравнила качество машинного контента с сочинениями, написанными учениками средней школы. Результат: чат-бот на основе искусственного интеллекта показал лучшие результаты по всем критериям, особенно в том, что касается владения языком.
Языковая модель ChatGPT добилась огромного прогресса. После того как в начале 2023 года версия 3.5 провалила баварский Abitur (тест, сдаваемый по окончании средней школы в Германии), ее преемница версия 4 спустя почти полгода получила твердую 2.
Исследование, проведенное Университетом Пассау, позволило продемонстрировать, насколько контент, созданный искусственным интеллектом, может изменить школьную систему. Исследователи также экспериментировали с двумя версиями языковых моделей.
В исследовании, озаглавленном «Масштабное сравнение написанных человеком и сгенерированных ChatGPT эссе» и опубликованном в журнале Scientific Reports, они пришли к выводу, что машина пишет лучшие эссе на английском языке. Они оценивали сгенерированные машиной тексты и сочинения, написанные учащимися средней школы в соответствии с рекомендациями, установленными Министерством образования Нижней Саксонии.
«Я был удивлен тем, насколько четкими оказались результаты», — говорит профессор Штеффен Хербольд, заведующий кафедрой ИИ инженерии в Университете Пассау и инициатор исследования. Обе версии чат-бота Open AI получили более высокие оценки, чем студенты, причем GPT-3 занял среднее место, а GPT-4 — лучшее. «Это показывает, что школы не должны закрывать глаза на эти новые инструменты».
Междисциплинарное исследование проводилось учеными-компьютерщиками в сотрудничестве с профессором компьютерной лингвистики Аннет Хаутли-Яниш и преподавателем информатики Уте Хойер. «Я считаю важным подготовить преподавателей к тем вызовам и возможностям, которые открываются перед ними по мере того, как модели искусственного интеллекта становятся все более доступными», — говорит Хойер.
По ее инициативе был организован учебный курс «ChatGPT — возможности и вызовы», который провела исследовательская группа. В этом мероприятии, состоявшемся в марте 2023 года, приняли участие 139 учителей, большинство из которых преподают в немецких гимназиях. Сначала учителя были ознакомлены с отдельными технологическими идеями, лежащими в основе генераторов текстов общего назначения и ChatGPT. Затем на практическом этапе были рассмотрены англоязычные тексты, о происхождении которых участники тренинга ничего не знали.
С помощью анкет преподавателям предлагалось оценить представленные им сочинения по шкале оценок, установленной Министерством образования Нижней Саксонии. Содержание оценивалось по таким критериям, как тема, полнота и логичность, а также по лингвистическим аспектам: словарный запас, сложность и владение языком. Исследовательская группа из Пассау определила шкалу от 0 до 6 по каждому критерию, где 0 — худшая оценка, а 6 — лучшая.
Сто одиннадцать преподавателей заполнили всю анкету и оценили в общей сложности двести семьдесят сочинений по английскому языку. Исследовательская группа обнаружила наибольшую разницу в уровне владения языком, где машина набрала 5,25 (GPT-4) и 5,03 балла (GPT-3) соответственно, тогда как студенты набрали в среднем 3,9 балла.
«Это не означает, что студенты плохо владеют английским языком. Напротив, баллы, полученные машиной, исключительно высоки», — подчеркивает Аннет Хаутли-Яниш, младший профессор кафедры вычислительной риторики и обработки естественного языка Университета Пассау.
Для Хаутли-Яниш, которая вместе с докторантом Златой Киктевой анализировала тексты с лингвистической точки зрения, это исследование дает новые интересные сведения о развитии языка машины. «Мы наблюдаем, как модели меняются со временем, и можем продемонстрировать в наших исследованиях, что они стали лучше выполнять поставленные перед ними задачи».
Исследователи также смогли выявить различия между человеческим и машинным языком. «Когда в будущем мы будем читать больше текстов, созданных искусственным интеллектом, мы должны будем задаться вопросом, влияет ли это на наш человеческий язык и как», — говорит Хаутли-Яниш.