Что нужно сделать, чтобы ИИ работал как ученый?

По мере того, как алгоритмы машинного обучения становятся все более изощренными, искусственный интеллект, похоже, готовится революционизировать саму практику научных исследований. Отчасти это произойдет благодаря программному обеспечению, позволяющему ученым работать более эффективно. Но некоторые сторонники надеются на фундаментальное преобразование самого процесса науки. Нобелевская премия Тьюринга, учрежденная в 2021 году известным компьютерным ученым Хироаки Китано, поставила перед научным сообществом задачу создать к 2050 году компьютерную программу, способную сделать открытие, достойное Нобелевской премии.

Часть работы ученых заключается в выявлении законов природы — основополагающих принципов, обобщающих фундаментальные закономерности нашей Вселенной. Многие из них, такие как законы движения Ньютона или закон сохранения массы в химических реакциях, выражены в строгой математической форме. Другие, такие как закон естественного отбора или закон Менделя о наследовании признаков, носят более концептуальный характер.

Научное сообщество состоит из теоретиков, аналитиков данных и экспериментаторов, которые сотрудничают, чтобы раскрыть эти законы. Мечта, стоящая за Нобелевской премией Тьюринга, заключается в том, чтобы переложить задачи всех трех на искусственный интеллект.

Аутсорсинг (некоторых) наук

Передача работы ученых машинам — не новая идея. Еще в 1970-х годах профессор Университета Карнеги-Меллона Патрик Лэнгли разработал программу, которую он назвал BACON, в честь Фрэнсиса Бэкона, который впервые применил эмпирическое умозаключение в науке. BACON был способен изучать данные и комбинировать их различными способами, пока не находил что-то похожее на закономерность. Получив правильные данные BACON открыл законы Кеплера, регулирующие орбиты планет вокруг Солнца. Однако ограниченные вычислительные мощности не позволили BACON браться за более сложные задачи.

В 1990-х годах, когда ученые получили больше вычислительных мощностей, они разработали автоматизированный инструмент, который мог искать формулы, пока не находил такую, которая соответствовала заданному набору данных. Эта техника, называемая символьной регрессией, породила формулы, как если бы они были видом с генетическим наследованием и мутациями, где выживали только те, которые лучше всего соответствовали данным. Эта техника и ее варианты послужили толчком к новой эре ИИ-ученых, многие из которых носят похожие отсылочные имена, такие как Eureqa и AI Feynman.

Эти сложные алгоритмы могут эффективно извлекать новые формулы, которые могут описывать научные законы, из огромных наборов данных. Предоставьте им достаточно сырых данных, и они определят и количественно оценят любые скрытые взаимосвязи, фактически выдавая правдоподобные гипотезы и уравнения для любой ситуации. Они играют роль аналитика данных, но эксперты говорят, что этот подход не о замене всех людей-ученых.

«Самым большим препятствием является представление знаний», — говорит Росс Кинг, исследователь машинного обучения в Кембриджском университете. “Потому что если посмотреть на крупные прорывы, например, теорию относительности Эйнштейна, то она возникла из философского вопроса о магнетизме. И это переосмысление наших знаний. Мы далеки от того, чтобы компьютер мог это сделать».

Использование существующих знаний

Чтобы действительно совершать революционные открытия, по мнению Кинга, способ представления знаний машинами должен быть более изощренным, чем просто перемещение алгебраических выражений, пока они не найдут то, которое подходит. Должен быть способ представить больше абстрактных, почти философских формулировок знаний и понимания — они должны обрабатывать законы как в их математической, так и нематематической формах.

Как шаг в этом направлении, исследователи IBM создали нового ИИ-ученого с новой особенностью: включением предварительных знаний. Ученые-люди часто начинают с хорошо установленных основополагающих принципов и выводят из них более сложные или конкретные взаимосвязи; они не полагаются исключительно на новые данные.

Программа IBM, названная AI Descartes, впервые объединяет открытие, основанное на данных, с пониманием теории. “Это то, что делают настоящие ученые”, — сказала Кристина Корнелио, научный сотрудник, работавшая в Samsung AI, которая возглавляла эту работу. Как и многие предыдущие ученые-машины, AI Descartes смотрит на новые данные и составляет список потенциальных базовых формул. В отличие от предыдущих программ, однако, она на этом не останавливается: затем она рассматривает соответствующие предварительные знания, проверяя, насколько хорошо предложенные формулы вписываются в общую картину.

AI Descartes по сути представляет собой трехэтапную систему, которая помогает программному обеспечению максимально осмыслить набор данных с учетом некоторой теоретической информации. Ее первый шаг аналогичен предыдущим ученым-машинам: изучение шумных данных и поиск формулы, которая бы подошла, не будучи чрезмерно сложной. Например, одно из классических уравнений, которое она переоткрыла, — это закон Кеплера, описывающий орбиты планет вокруг Солнца. Обработчики Descartes ввели в систему массы Солнца и каждой планеты, их расстояние до Солнца и количество дней, которые каждая тратит на завершение одного оборота. Система использовала версию символьной регрессии для построения возможных формул из компонентов и искала такую, которая может предсказать орбитальный период любой планеты на основе массы и расстояния. Обычно эта процедура приводит к нескольким возможным формулам с разной степенью сложности (при этом более простые менее точны).

На втором этапе AI Descartes обращается к известной базовой теории, чтобы проверить, имеет ли какая-либо из кандидатских формул научный смысл, и поможет ли сделать выбор. Для этого она использует «модуль логического вывода», который в основном работает как доказатель проверки теорем — проверяя логические связи без необходимости фактических данных. Он начинается с фундаментальных правил и понятий, выраженных в виде набора уравнений, введенных человеком-исследователем. Для случая закона Кеплера это включало выражения для гравитационных и центробежных сил, а также основные предпосылки, такие как масса всегда должна быть положительной. Затем модуль логического вывода пытается расширить свои базовые знания по одному логическому шагу за раз, используя фундаментальные правила для генерации все большего количества формул, которые по-прежнему действительны.

Если одна из кандидатских формул первого шага появляется в этом списке, то она сразу становится фаворитом, поскольку ее можно доказать из базовой теории.

Несовершенные совпадения

Конечно, более вероятно, что теоремодоказатель не сгенерирует точное совпадение для кандидатской формулы — если формулу легко вывести только из базовой теории, можно поставить под сомнение необходимость данных в первую очередь. В примере с законом Кеплера ни одну из трех формул, которые он определил на первом шаге, нельзя было вывести только из существующих знаний.

Но способы, которыми кандидатские формулы не соответствуют возможностям, предполагаемым теорией, могут быть просветляющими. Это составляет решающий третий шаг: определение того, какая кандидатская формула ближе всего к возможностям, предполагаемым базовой теорией. Для этого AI Descartes использует три отдельных способа описания расстояния между кандидатскими формулами, основанными на данных, и теми, которые можно получить из базовой теории, — что можно сделать даже без явной «правильной» формулы. “В этом и есть магия доказателя теорем”, — говорит Корнелио.

Эти определения расстояния различаются, но все они касаются попыток вывести кандидатскую формулу из базовой теории с некоторыми различными предположениями. Эти расстояния помогают выяснить, почему формулу, возможно, нельзя вывести из базовой теории, и, таким образом, предложить дальнейшие действия. В первом случае проверяется, что сами данные не противоречат теории; во втором, соответствует ли формула зашумленным данным; и в третьем, имеет ли кандидатская формула разумную зависимость от каждой из переменных (например, масс и расстояний планет в Солнечной системе).

Изучив все три показателя ошибок, AI Descartes выбрала наименее грубую версию закона Кеплера. Все три кандидатские формулы достаточно хорошо справились с первым и вторым тестами, но третий показал, что ни одна из них не имела одобренной теорией зависимости от массы, и только одна имела соответствующую зависимость от расстояния между планетами и Солнцем. Поэтому ИИ сделал вывод, что формула, зависящая от расстояния, является хорошим приближением для диапазона масс тел в Солнечной системе.

Чтобы добиться большего, команда обратилась к набору данных, который включал пары звезд, вращающихся вокруг друг друга. Тогда ИИ полностью заново открыл закон Кеплера.

Если программа не сможет найти формулу, которая хотя бы частично соответствует как данным, так и теории, она может порекомендовать последующие эксперименты для получения дополнительных данных, которые помогут ей различить кандидатские формулы.

Долгий путь впереди

Консультирование с предварительными знаниями позволяет программе делать содержательные выводы из гораздо меньшего количества данных. Помимо законов Кеплера, AI Descartes повторно вывела несколько хорошо известных законов физики и химии из всего 10 фрагментов данных, и вскоре может помочь ученым решить нерешенные проблемы. «Во многих задачах проведение измерений является сложной задачей», — говорит Корнелио, — “как с точки зрения эксперимента, так и с точки зрения стоимости. Поэтому во многих случаях у вас действительно есть очень шумные данные с очень небольшим количеством точек. Именно там AI Descartes была бы наиболее полезна».

Она не сможет выиграть Нобелевскую премию Тьюринга самостоятельно, говорит Кинг, но «AI Descartes — это шаг к этому. Это одна из частей, которая для этого необходима». Эксперт по машинной науке Джордж Карниадакис из Брауновского университета согласен: «Я приветствую усилия, потому что они движутся в правильном направлении», — говорит он, — «но мы еще не достигли той точки, где у нас достаточно интеллекта».

Одна проблема заключается в том, что, хотя Descartes может анализировать данные и рекомендовать эксперименты, сама система не может проводить эксперименты. И еще более серьезной является отсутствие систематизированных наборов базовых знаний аксиом, на которых можно было бы основываться на втором этапе. Будет еще сложнее дать ИИ способность переформулировать эти знания, начиная с совершенно других предпосылок или альтернативной концептуальной основы, а не просто добавляя формулы к существующей структуре. Тем не менее, эта способность имеет решающее значение для навигации по областям, где есть несколько конкурирующих гипотез, например, для поиска квантово-совместимой версии гравитации.

«Если подумать об истории науки», — говорит Карниадакис, — «крупные открытия пришли от озарений. Озарение — это когда вы идете по дороге и понимаете, что у вас были неправильные предположения, и вы понимаете, что они неверны. Эти машины не могут осознать это”.

Но AI Descartes показывает один из возможных способов начать продвигать нас туда, и исследователи уже работают над следующими шагами. “Теория может быть неполной, а иногда и неверной”, — говорит Лиор Хореш, старший менеджер в Исследовательском институте Массачусетского технологического института и IBM, который возглавлял проект. «Поэтому наш следующий вопрос: «Можем ли мы каким-то образом привести как числовые данные, так и теоремы к общему знаменателю, где они могут обмениваться ценностью и одновременно направлять нас к открытию новых моделей?» Так или иначе, я надеюсь, что AI Descartes и будущие достижения ИИ смогут помочь нам раскрыть некоторые тайны Вселенной».

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *