Проведена оценка способности ChatGPT и других больших языковых моделей обнаруживать фейковые новости

Большие языковые модели (LLM) являются эволюцией техник обработки естественного языка (NLP), которые могут быстро генерировать тексты, близкие к написанным людьми, и выполнять другие простые задачи, связанные с языком. Эти модели стали все более популярными после публичного выпуска ChatGPT, высокопроизводительной LLM, разработанной OpenAI.

Недавние исследования, оценивающие LLM, в основном проверяли их способность создавать хорошо написанные тексты, определять конкретные термины, писать эссе и другие документы, а также создавать эффективный компьютерный код. Однако эти модели могут потенциально помочь людям решать различные другие проблемы реального мира, включая фейковые новости и дезинформацию.

Кевин Мэтт Карамансион, исследователь из Университета Висконсин-Стаут, недавно провел исследование, оценивающее способность наиболее известных LLM, выпущенных на данный момент, обнаруживать, является ли новостная история правдой или фальшивкой. Его результаты, изложенные в статье на сервере предварительных публикаций arXiv, предлагают ценные идеи, которые могут способствовать будущему использованию этих сложных моделей в борьбе с онлайн-дезинформацией.

«Вдохновение для моей последней статьи пришло из необходимости понять возможности и ограничения различных LLM в борьбе с дезинформацией», — сказал Карамансион Tech Xplore. «Моя цель была тщательно проверить умение этих моделей различать факты от вымысла, используя контролируемую симуляцию и признанные фактчекинговые агентства в качестве эталона».

«Мы оценили производительность этих больших языковых моделей с помощью набора тестов из 100 проверенных фактов новостей от независимых фактчекинговых агентств», — сказал Карамансион. «Мы представили каждую из этих новостей моделям в контролируемых условиях, а затем классифицировали их ответы по одной из трех категорий: Правда, Ложь и Частично Правда/Ложь. Эффективность моделей измерялась на основе того, насколько точно они классифицировали эти элементы по сравнению с проверенными фактами, предоставленными независимыми агентствами».

Дезинформация стала важной проблемой в последние десятилетия, поскольку интернет и социальные медиа позволили все более быстро распространять информацию, независимо от ее правдивости. Многие компьютерные ученые пытаются создать и протестировать лучшие инструменты и платформы для фактчекинга, позволяющие пользователям проверять новости, которые они читают в Интернете.

Несмотря на созданные и протестированные до сих пор множество инструментов для фактчекинга, по-прежнему отсутствует широко принятая и надежная модель для борьбы с дезинформацией. В рамках своего исследования Карамансион попытался определить, могут ли существующие LLM эффективно решить эту мировую проблему.

Он конкретно оценил производительность четырех LLM, а именно Chat GPT-3.0 и Chat GPT-4.0 от OpenAI, Bard/LaMDA от Google и Bing AI от Microsoft. Карамансион подал на эти модели те же самые новостные истории, которые были предварительно проверены на факты, и затем сравнил их способность определить, являются ли они правдой, ложью или частично правдой/ложью.

«Мы провели сравнительную оценку основных LLM в их способности различать факты от обмана», — сказал Карамансион. «Мы обнаружили, что GPT-4.0 от OpenAI превзошел другие модели, указывая на прогресс в новых LLM. Однако все модели уступили человеческим фактчекерам, подчеркивая незаменимую ценность человеческого познания. Эти результаты могут привести к увеличению внимания к развитию возможностей искусственного интеллекта в области фактчекинга, при этом обеспечивая сбалансированную, симбиотическую интеграцию с навыками человека».

Проведенная Карамансионом оценка показала, что ChatGPT 4.0 значительно превосходит другие известные LLM в задачах фактчекинга. Дальнейшие исследования, проверяющие LLM на более широком спектре фейковых новостей, могут помочь подтвердить этот результат.

Исследователь также обнаружил, что человеческие фактчекеры все еще превосходят все основные LLM, которые он оценил. Его работа подчеркивает необходимость дальнейшего усовершенствования этих моделей или их совмещения с работой человеческих агентов, если они будут применяться в фактчекинге.

«Мои планы на будущее исследование связаны с изучением развития возможностей искусственного интеллекта, с акцентом на то, как мы можем использовать эти достижения, не упуская из виду уникальные когнитивные способности людей», — добавил Карамансион. «Мы намерены усовершенствовать наши протоколы тестирования, исследовать новые LLM и дополнительно изучить взаимодействие между человеческим познанием и технологией искусственного интеллекта в области фактчекинга новостей».

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *