Обречены ли модели ИИ всегда галлюцинировать?

Большие языковые модели (LLM), такие как ChatGPT от OpenAI, страдают от одной и той же проблемы: они выдумывают вещи.

Ошибки варьируются от странных и безобидных — например, утверждение, что мост «Золотые Ворота» был переброшен через Египет в 2016 году — до крайне проблематичных, и даже опасных.

Недавно мэр одного из городов Австралии пригрозил подать в суд на OpenAI, потому что ChatGPT ошибочно заявил, что он признал себя виновным в крупном скандале со взятками. Исследователи обнаружили, что галлюцинации LLM могут быть использованы для распространения вредоносных пакетов кода не подозревающим об этом разработчикам программного обеспечения. И LLM часто дают плохие советы по психическому здоровью и медицине, например, что употребление вина может «предотвратить рак».

Эта тенденция придумывать «факты» — явление, известное как галлюцинация, и оно происходит из-за того, как сегодня разрабатываются и обучаются современные LLM — и все генеративные модели ИИ в целом.

Обучение моделей

У генеративных моделей ИИ нет реального интеллекта — это статистические системы, которые предсказывают слова, изображения, речь, музыку или другие данные. Получив огромное количество примеров, обычно из открытого веба, модели ИИ учатся определять вероятность появления данных на основе закономерностей, включая контекст любых окружающих данных.

Например, увидев типичное окончание электронного письма во фрагменте «С нетерпением жду…», LLM, возможно, завершит его фразой «…ответа» — следуя шаблону бесчисленных электронных писем, на которых она была обучена. Это не значит, что сама LLM с нетерпением чего-то ждет.

«Текущий подход к обучению LLM включает сокрытие, или «маскирование» предыдущих слов для контекста» и заставляет модель предсказывать, какие слова должны заменить замаскированные, — сказал Себастьян Бернс, доктор философии Лондонского университета королевы Марии. «Концептуально это похоже на использование интеллектуального ввода текста в iOS и постоянное нажатие на одно из предложенных следующих слов».

Такой подход, основанный на вероятности, в большинстве случаев очень хорошо работает в масштабе. Но хотя набор слов и их вероятностей, скорее всего, приведет к осмысленному тексту, далеко не факт, что это будет так.

LLM могут сгенерировать что-то грамматически правильное, но бессмысленное, например — как утверждение о Золотых Воротах. Или они могут нести ложь, распространяя неточности в обучающих данных. Или они могут смешивать разные источники информации, включая вымышленные, даже если эти источники явно противоречат друг другу.

Это не злонамеренность с их стороны. У них нет злого умысла, и понятия истины и лжи для них бессмысленны. Они просто научились ассоциировать определенные слова или фразы с определенными понятиями, даже если эти ассоциации неточны.

««Галлюцинации» связаны с неспособностью LLM оценить неопределенность собственного прогноза, — сказал Бернс. — Обычно LLM обучаются всегда давать вывод, даже когда входные данные сильно отличаются от обучающих. Стандартная LLM не имеет способа понять, может ли она надежно ответить на запрос или сделать прогноз».

Решение проблемы галлюцинаций

Вопрос в том, можно ли решить проблему галлюцинаций? Ответ зависит от того, что вы подразумеваете под «решением».

Ву Ха, прикладной исследователь и инженер в Институте Искусственного Интеллекта Аллена, утверждает, что LLM «галлюцинируют и всегда будут галлюцинировать». Но он также считает, что есть конкретные способы уменьшить — хотя и не устранить полностью — галлюцинации, в зависимости от того, как обучалась и используется LLM.

«Рассмотрим систему ответов на вопросы», — сказал Ха. «Можно спроектировать ее так, чтобы она имела высокую точность, формируя высококачественную базу знаний вопросов и ответов и подключая эту базу знаний к LLM для получения точных ответов с помощью процесса, похожего на поиск».

Ха проиллюстрировал разницу между LLM с «высококачественной» базой знаний для использования по сравнению с LLM с менее тщательным подбором данных. Он задал вопрос «Кто создатели Toolformer?» (Toolformer — это модель ИИ, обученная Meta*) через чат-бот Bing от Microsoft, и Bard от Google. Bing Chat правильно перечислил всех восьмерых соавторов из Meta*, в то время как Bard ошибочно приписал работу исследователям из Google и Hugging Face.

«Любая развернутая система на основе LLM будет галлюцинировать. Реальный вопрос в том, перевешивают ли преимущества негативные последствия галлюцинаций», — сказал Ха. Другими словами, если от модели нет очевидного вреда — модель ошибается с датой или именем время от времени, например, — но в целом она полезна, то, возможно, стоит пойти на компромисс. «Это вопрос максимизации ожидаемой полезности ИИ», — добавил он.

Бернс указал на еще одну технику, которая с некоторым успехом использовалась для уменьшения галлюцинаций в LLM: обучение с подкреплением на основе отзывов (RLHF). Представленное OpenAI в 2017 году, RLHF включает обучение LLM, а затем сбор дополнительной информации для обучения модели «вознаграждения» и дополнительной настройки LLM с помощью модели вознаграждения через обучение с подкреплением.

В RLHF набор подсказок из заранее определенного набора данных проходит через LLM для генерации нового текста. Затем используются аннотаторы-люди, чтобы проранжировать выходные данные от LLM с точки зрения их общей «полезности» — эти данные используются для обучения модели вознаграждения. Модель вознаграждения, которая на этом этапе может принимать любой текст и присваивать ему оценку того, насколько хорошо его воспринимают люди, затем используется для тонкой настройки сгенерированных ответов LLM.

OpenAI использовала RLHF для обучения нескольких своих моделей, включая GPT-4. Но даже RLHF не является идеальным, предупредил Бернс.

«Я считаю, что пространство возможностей слишком велико, чтобы полностью «согласовать» LLM с помощью RLHF», — сказал Бернс. «Что-то, часто делаемое в настройке RLHF — это обучение модели давать ответ «Я не знаю» (на сложный вопрос), в основном полагаясь на экспертные знания человека и надеясь, что модель обобщит их до собственных знаний предметной области. Часто так и происходит, но это может быть немного сложно».

Альтернативные подходы

Предположим, что галлюцинации неразрешимы, по крайней мере с сегодняшними LLM. Это плохо? Бернс так не считает. Галлюцинирующие модели могут стимулировать творчество, выступая в качестве «партнера по совместному творчеству», — утверждает он. Они могут давать выводы, которые не полностью соответствуют фактам, но тем не менее содержат полезные идеи. Творческое использование галлюцинаций может приводить к результатам или комбинациям идей, которые вряд ли пришли бы в голову большинству людей.

“«Галлюцинации» — это проблема, если сгенерированные утверждения фактически неверны или нарушают какие-либо общечеловеческие, социальные или конкретные культурные ценности — в сценариях, когда человек полагается на LLM как на эксперта”, — сказал он. «Но в творческих или художественных задачах способность генерировать неожиданные результаты может быть ценной. Получатель-человек может быть удивлен ответом на запрос и, следовательно, может быть направлен в определенном направлении мыслей, которое может привести к новому соединению идей».

Ха утверждал, что к сегодняшним LLM предъявляются неразумные требования — в конце концов, люди тоже «галлюцинируют», когда ошибочно вспоминают или как-то искажают правду. Но с LLM, по его мнению, мы испытываем когнитивный диссонанс, потому что модели генерируют выводы, которые выглядят хорошо на поверхности, но содержат ошибки при более внимательном рассмотрении.

«Попросту говоря, LLM, как и любые методы ИИ, несовершенны и, следовательно, допускают ошибки», — сказал он. «Традиционно мы нормально относимся к тому, что системы ИИ делают ошибки, поскольку мы ожидаем и принимаем их несовершенство. Но когда ошибки допускают LLM, это более тонкий момент».

Действительно, ответ, возможно, кроется не в том, как работают генеративные модели ИИ на техническом уровне. Наиболее разумный подход, решения проблемы галлюцинаций сегодня, по-видимому, заключается в том, чтобы относиться к прогнозам моделей с долей скептицизма.

*Meta признана экстремистcкой организацией в России.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *