За последнее десятилетие ИИ проник практически во все области науки: модели машинного обучения используются для прогнозирования структуры белков, оценки доли тропических лесов Амазонки, погибших от вырубки, и даже для классификации далеких галактик, в которых могут находиться экзопланеты.
Однако, хотя ИИ может использоваться для ускорения научных открытий, помогая исследователям делать прогнозы относительно явлений, которые трудно или дорого изучать в реальном мире, он также может сбить ученых с пути. Подобно тому, как чат-боты иногда «галлюцинируют» или придумывают что-то, модели машинного обучения могут иногда давать недостоверные или откровенно ложные результаты.
В статье, опубликованной в журнале Science, исследователи из Калифорнийского университета в Беркли представили новый статистический метод, позволяющий безопасно использовать прогнозы, полученные с помощью моделей машинного обучения, для проверки научных гипотез.
Эта методика, получившая название prediction-powered inference (PPI), использует небольшой объем реальных данных для корректировки результатов работы больших общих моделей, таких как AlphaFold, которая предсказывает структуру белков, в контексте конкретных научных вопросов.
«Эти модели предназначены для того, чтобы быть общими: они могут отвечать на многие вопросы, но мы не знаем, на какие вопросы они отвечают хорошо, а на какие — плохо, и если использовать их по наитию, не зная, в какой ситуации вы находитесь, можно получить плохие ответы», — сказал автор исследования Майкл Джордан, заслуженный профессор электротехники, информатики и статистики в Калифорнийском университете в Беркли. «С помощью PPI вы можете использовать модель, но корректировать возможные ошибки, даже если вы не знаете их природу с самого начала».
Риск скрытых предубеждений
Когда ученые проводят эксперименты, они не просто ищут один ответ — они хотят получить целый ряд правдоподобных ответов. Для этого рассчитывается «доверительный интервал», который в простейшем случае можно получить, многократно повторяя эксперимент и наблюдая за тем, как меняются результаты.
В большинстве научных исследований доверительный интервал обычно относится к суммарной или комбинированной статистике, а не к отдельным точкам данных. К сожалению, системы машинного обучения ориентированы на отдельные точки данных и поэтому не дают ученым тех оценок неопределенности, которые их интересуют. Например, AlphaFold предсказывает структуру одного белка, но не дает понятия достоверности этой структуры и не позволяет получить доверительные интервалы, относящиеся к общим свойствам белков.
У ученых может возникнуть соблазн использовать предсказания AlphaFold как данные для вычисления классических доверительных интервалов, игнорируя тот факт, что эти предсказания не являются данными. Проблема такого подхода заключается в том, что системы машинного обучения имеют множество скрытых предубеждений, которые могут исказить результаты. Эти предубеждения возникают, в частности, из-за данных, на которых они обучаются, а это, как правило, уже существующие научные исследования, которые могут быть не так ориентированы, как текущее исследование.
«Действительно, в научных проблемах нас часто интересуют явления, которые находятся на грани между известным и неизвестным», — сказал Джордан. Очень часто данных из прошлого, которые находятся на этой грани, не так много, и это делает генеративные модели ИИ еще более склонными к «галлюцинациям», выдавая нереалистичные результаты».
Вычисление достоверных доверительных интервалов
PPI позволяет ученым учитывать прогнозы таких моделей, как AlphaFold, не делая никаких предположений о том, как была построена модель или на каких данных она обучалась. Для этого PPI требует небольшого количества данных, которые являются объективными по отношению к конкретной исследуемой гипотезе, в паре с предсказаниями машинного обучения, соответствующими этим данным. Соединив эти два источника доказательств, PPI может сформировать достоверные доверительные интервалы.
Например, исследовательская группа применила методику PPI к алгоритмам, позволяющим определять районы вырубки лесов в Амазонии по спутниковым снимкам. При тестировании этих моделей на отдельных участках леса они оказались в целом точными, однако когда эти оценки были объединены для оценки масштабов обезлесения на всей территории Амазонии, доверительные интервалы оказались сильно искажены. Вероятно, это объясняется тем, что модель не смогла распознать некоторые новые модели обезлесения.
С помощью PPI команда смогла скорректировать смещение доверительного интервала, используя небольшое количество помеченных человеком регионов обезлесения.
Команда также продемонстрировала, что данная методика может быть использована в различных других исследованиях, включая вопросы сворачивания белков, классификации галактик, уровней экспрессии генов, подсчета планктона и взаимосвязи между доходами и частным медицинским страхованием.
«Мы считаем, что PPI — это крайне необходимый компонент современной науки, требующей большого объема данных, моделирования и сотрудничества. На самом деле нет ограничений на типы вопросов, к которым может быть применен этот подход», — сказал Джордан.
Среди соавторов работы — Анастасиос Н. Ангелопулос, Стивен Бейтс, Клара Фаньцзян и Тиджана Зрнич из Калифорнийского университета в Беркли.