ChatGPT проваливает тест по диагностике детских заболеваний с 83-процентным уровнем ошибок

Если раньше чат-бот с искусственным интеллектом уже не раз демонстрировал неудачные попытки диагностировать сложные медицинские случаи — в прошлом году его точность составила 39 процентов, — исследование, опубликованное на этой неделе в журнале JAMA Pediatrics, показывает, что четвертая версия большой языковой модели особенно плохо справляется с детьми. Ее точность при диагностике детских заболеваний составила всего 17 процентов.

Низкий показатель успешности говорит о том, что педиатры-люди не останутся без работы в ближайшее время, если, конечно, вас это тревожит. Как отмечают авторы: «Данное исследование подчеркивает неоценимую роль клинического опыта». Но оно также выявляет критические недостатки, которые привели к высокой частоте ошибок в ChatGPT, и способы превратить его в полезный инструмент в клинической практике. При таком большом интересе к чат-ботам с искусственным интеллектом многие педиатры и другие врачи считают их интеграцию в клиническую практику неизбежной.

Медицина, в целом, рано начала использовать технологии, основанные на ИИ, что привело к некоторым заметным просчетам, таким как создание алгоритмических расовых предубеждений, а также к успехам, таким как автоматизация административных задач и помощь в интерпретации сканирования грудной клетки и изображений сетчатки глаза. Есть и много промежуточных результатов. Но потенциал искусственного интеллекта в решении проблем вызвал большой интерес к превращению его в полезный инструмент для сложной диагностики.

В новом исследовании, проведенном учеными из Детского медицинского центра Коэна в Нью-Йорке, ChatGPT-4 показал, что он еще не готов к постановке педиатрических диагнозов. По сравнению с общими случаями, педиатрические требуют большего учета возраста пациента, отмечают исследователи. А как известно любому родителю, диагностировать заболевания у младенцев и маленьких детей особенно сложно, поскольку они не могут точно определить или сформулировать все симптомы, которые они испытывают.

Для исследования ученые использовали чат-бот для решения 100 задач по педиатрии, опубликованных в журналах JAMA Pediatrics и NEJM в период с 2013 по 2023 год. Это медицинские случаи, опубликованные в виде задач или викторин. Врачам, читающим эти статьи, предлагается попытаться поставить правильный диагноз в сложном или необычном случае, основываясь на информации, которой располагали лечащие врачи на тот момент. Иногда в публикациях также объясняется, как лечащие врачи пришли к правильному диагнозу.

Для теста ChatGPT исследователи вставляли в подсказку соответствующие тексты медицинских случаев, а затем два квалифицированных врача-исследователя оценивали сгенерированные ИИ ответы как правильные, неправильные или «не полностью отражающие диагноз». В последнем случае ChatGPT предлагал клинически связанное состояние, которое было слишком широким или неспецифичным, чтобы считаться правильным диагнозом.

В целом ChatGPT дал правильный ответ только в 17 случаях из 100. В 72 случаях он был явно ошибочным, а в остальных 11 случаях не полностью отразил диагноз. Среди 83 неправильных диагнозов 47 (57 процентов) относились к одной и той же системе органов.

В числе недостатков отметили исследователи то, что ChatGPT, как оказалось, с трудом улавливает известные взаимосвязи между заболеваниями, которые, как можно надеяться, заметит опытный врач. Например, в одном медицинском случае он не обнаружил связи между аутизмом и цингой (дефицитом витамина С). Нервно-психические заболевания, такие как аутизм, могут приводить к ограничению рациона, а это, в свою очередь, может привести к дефициту витаминов. Таким образом, нервно-психические заболевания являются заметными факторами риска развития дефицита витаминов у детей, и врачам следует быть начеку. ChatGPT, тем временем, поставил диагноз редкого аутоиммунного заболевания.

Хотя чат-бот не справился с этим испытанием, исследователи считают, что его можно улучшить, если специально и выборочно обучать его на точной и заслуживающей доверия медицинской литературе, а не на материалах из Интернета, которые могут содержать неточности и дезинформацию. Они также считают, что чат-боты могли бы стать лучше, если бы имели доступ к медицинским данным в режиме реального времени, что позволило бы моделям повышать свою точность.

«Это открывает перед исследователями возможность выяснить, может ли специальное обучение и настройка на основе медицинских данных повысить диагностическую точность чат-ботов на основе LLM», — заключают авторы.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *