Google разрабатывает мультизадачный медицинский ИИ для извлечения ценных данных о здоровье

Google экспериментирует с мультимодальными большими языковыми моделями ИИ для реализации медицинских задач.

Исследователи технологического гиганта работают над созданием нескольких мультимодальных медицинских систем ИИ — систем ИИ, которые могут обрабатывать и понимать данные из разных модальностей, таких как изображения, текст и геномика.

Среди исследований Google — Med-PaLM M, большая мультимодальная модель, которая может кодировать и интерпретировать различные модальности биомедицинских данных, используя одни и те же веса модели.

В другом проекте, ELIXR, ученые объединили языковой кодировщик изображений с флагманской языковой моделью Google PaLM 2 в попытке создать универсальную систему ИИ для рентгенограмм.

«Если успешно доработать, крупные мультимодальные медицинские модели могут стать основой новых вспомогательных технологий, охватывающих профессиональную медицину, медицинские исследования и потребительские приложения», — написали Грег Коррадо и Йосси Матиас, руководитель медицинского отдела ИИ и вице-президент по техническим разработкам и исследованиям в Google Research соответственно, в блог-посте.

Med-PaLM M

Среди своих экспериментов исследователи Google пытаются создать полностью универсальную систему, способную впитывать информацию из разных источников.

В статье «К универсальному биомедицинскому ИИ» исследователи Google подробно описывают Med-PaLM M, которая может использовать несколько источников данных для выполнения задач.

Вместо того, чтобы иметь отдельные кодировщики и адаптеры для каждой модальности данных, Med-PaLM M объединяет одну языковую модель — PaLM — и один кодировщик зрения (ViT) для понимания языковых и визуальных данных соответственно.

Коррадо и Матиас пояснили: «В этой конфигурации текстовые и табличные модальности данных охватываются текстовым кодером LLM, но теперь все остальные данные рассматриваются как изображение и подаются на кодер зрения».

Med-PaLM M берет биомедицинские данные из изображений, геномных записей и клинических документов, таких как заметки врача или рентгеновские снимки, и может извлекать информацию из этих различных источников данных.

Google надеется создать медицинскую систему, способную к мультизадачности.

Med-PaLM M использовалась для получения информации по примерно 250 рентгенограммам грудной клетки. Google обнаружила, что врачи предпочитали отчеты, сгенерированные ею, в 40,5% случаев.

В статье Google говорится, что этот инструмент может иметь потенциальную клиническую полезность, поскольку он часто превосходил другие специализированные модели в MultiMedBench — новом мультимодальном биомедицинском тесте, который ее исследователи должны были провести, чтобы оценить модель. MultiMedBench охватывает 14 разнообразных задач, таких как медицинский поиск ответов, маммография и интерпретация изображений дерматологии, а также генерация и резюмирование радиологических отчетов. Команда Google обнаружила, что используемые для тестирования наборы данных были ограничены по размеру, модальности и разнообразию задач — серьезная проблема, учитывая, что они разрабатывали систему, способную к мультизадачности.

Ученые Google также обнаружили сложность масштабирования модели из-за нехватки медицинских данных. В статье говорится: «Учитывая широкий спектр модальностей и задач, которые такие универсальные модели должны понимать и решать, критически важно, чтобы кодировщики для таких разнообразных модальностей масштабировались совместно с языковой моделью. В противном случае для задач, требующих интерпретации данных из комбинации модальностей, производительность в конечном итоге будет ограничена слабейшим кодировщиком».

Med-PaLM M не открыта для всеобщего доступа. Однако команда, работающая над ней, предоставила подробности о базовой методологии и о том, как они построены на основе ранее опубликованных моделей, чтобы другие исследователи могли протестировать аналогичные подходы.

Google ELIXR

Система Embeddings for Language/Image-aligned X-Rays, или ELIXR — это еще одна попытка исследователей Google создать универсальные системы ИИ для медицинских целей, в частности, для понимания и интерпретации рентгеновских снимков с помощью машинного обучения.

В статье «ELIXR: к универсальной системе рентгеновского искусственного интеллекта через выравнивание больших языковых моделей и кодировщиков медицинского зрения» подробно описано, как исследователи создали этот метод.

Ученые обучили адаптер медицинской информации, который отображает выходные данные существующего или усовершенствованного кодировщика изображений в форму, понятную для большой языковой модели.

Получившаяся в результате система хорошо справляется со своими задачами и даже выполняет возможности, для которых не обучалась, включая семантический поиск и визуальный поиск ответов.

По сравнению с существующими методами, включая контрастивное обучение с учителем (SupCon), ELIXR потребовалась на два порядка меньше данных для достижения сходной производительности, обнаружили исследователи Google.

ELIXR также показала многообещающие результаты на задачах зрительно-языкового анализа рентгенограмм грудной клетки, демонстрируя общую точность 58,7% и 62,5% на задачах визуального поиска ответов и обеспечения качества отчетов соответственно.

Коррадо и Матиас написали, что ELIXR использует «относительно скромные вычислительные ресурсы» для обучения своих адаптивных слоев и позволяет базовой большой языковой модели «опираться на существующие высокооптимизированные и проверенные модели в каждой области данных».

Google нацеливает ИИ на здравоохранение

Исследователи Google экспериментировали с моделями ИИ для медицинских учреждений задолго до ELIXR и Med-PaLM M.

Наиболее известный пример — Med-PaLM-2, продемонстрированный на недавнем мероприятии компании I/O. Med-PaLM-2 может анализировать медицинские проблемы по изображениям, например, рентгеновским снимкам. По данным Google, модель достигла девятикратного снижения неточных рассуждений, приближаясь по производительности к врачам при ответе на тот же набор вопросов.

Google Cloud также имеет собственную новую платформу медицинской визуализации The Medical Imaging Suite. Представленная в октябре 2022 года, платформа медицинской визуализации предлагает набор инструментов ИИ для использования врачами, включая наборы данных визуализации, панели мониторинга и инструменты вроде BigQuery и Looker.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *