Искусственный интеллект в своей наиболее успешной форме, такой, как ChatGPT или AlphaFold от DeepMind для предсказания структуры белка, оказался в ловушке одного заметно узкого измерения: ИИ видит вещи только с одной стороны, как слово, как изображение, как координату в пространстве, как любой тип данных, но только по одному за раз.
В самое ближайшее время нейронные сети резко расширятся благодаря слиянию форм данных, которые будут смотреть на жизнь с разных сторон. Это важное развитие, ибо оно может дать нейронным сетям более глубокое понимание того, как мир связан, способах, которыми вещи держатся вместе, что могло бы стать важным этапом в движении к программам, которые однажды смогут выполнять то, что вы называете «рассуждениями» и «планированием» в отношении мира.
Грядущая волна многосторонних данных берет свое начало в многолетних исследованиях ученых, занимающихся машинным обучением, и обычно носит название «multi-view», или, в качестве альтернативы, слияние данных. Есть даже академический журнал, посвященный этой теме, он называется Information Fusion, его публикует издательский гигант Elsevier.
Глубокая идея слияния данных заключается в том, что все, что мы пытаемся изучить в мире, имеет много граней одновременно. Например, веб-страница имеет как текст, который мы видим невооруженным глазом, так и якорный текст, который ссылается на эту страницу, или даже третье — базовый код HTML и CSS, который является структурой страницы.
Изображение человека может иметь как метку с именем человека, так и пиксели самого изображения. Видео имеет кадр видео, но также аудиозапись, сопровождающую этот кадр.
Сегодняшние ИИ-программы рассматривают такие различные данные как отдельные фрагменты информации о мире, практически без связи между ними. Даже когда нейронные сети обрабатывают несколько видов данных, таких как текст и аудио, наибольшее, что они делают, это обрабатывают эти наборы данных одновременно – они явно не связывают несколько видов данных с пониманием того, что они являются представлениями одного и того же объекта.
Например, Meta* — владелец Facebook*, Instagram* и WhatsApp — во вторник представила свою последнюю разработку в области машинного перевода, демонстрируя силу в использовании нескольких модальностей данных. Программа, SeamlessM4T, обучается одновременно как на речевых, так и на текстовых данных и может генерировать как текст, так и аудио для любой задачи.
Но SeamlessM4T не воспринимает каждую единицу каждого сигнала как грань одного и того же объекта.
Такое фрагментированное восприятие вещей начинает меняться. В недавно опубликованной статье доцента Нью-Йоркского университета и научного сотрудника Равида Шварца-Зива и главного ученого Meta* по искусственному интеллекту Янна Лекуна, обсуждается цель использования многогранного подхода для обогащения глубоких нейронных сетей посредством представления объектов с нескольких точек зрения.
В высокотехничной и довольно теоретической статье, опубликованной на сервере препринтов arXiv в апреле, Шварц-Зив и Лекун пишут, что «успех глубокого обучения в различных прикладных областях привел к растущему интересу к глубоким многогранным методам, которые показали многообещающие результаты».
Многогранный подход движется к решающему моменту, поскольку сегодняшние все более крупные нейронные сети – такие как SeamlessM4T – берут на себя все больше и больше модальностей, известных как мультимодальный ИИ.
Будущее так называемого генеративного ИИ, программ вроде ChatGPT и Stable Diffusion, будет сочетать в себе множество модальностей в одной программе, включая не только текст, изображения и видео, но и облачные точки, графы знаний, даже биоинформатические данные и многие другие взгляды на сцену или объект.
Многочисленные различные модальности предлагают потенциально тысячи «взглядов» на вещи, взгляды, которые могли бы содержать взаимную информацию, что могло бы быть очень богатым подходом к пониманию мира. Но это также ставит проблемы.
Ключом к многогранному подходу в глубоких нейронных сетях является концепция, которую Шварц-Зив и другие выдвинули, и известная как «информационное узкое место». Информационное узкое место становится проблематичным по мере увеличения числа модальностей.
В информационном узком месте множественные входные данные комбинируются в «представлении», которое извлекает существенные детали, общие для входных данных как различных взглядов на тот же объект. На втором этапе это представление затем сжимается до сжатой формы, которая содержит только существенные элементы входных данных, необходимые для предсказания выходных данных, соответствующих этому объекту. Этот процесс накопления общей информации и затем удаления или сжатия всего, кроме самого важного, представляет собой узкое место информации.
Проблема для многогранного подхода в больших мультимодальных сетях заключается в том, как узнать, какая информация из всех различных представлений является существенной для многих задач, которые гигантская нейронная сеть будет выполнять со всеми этими разными модальностями.
В качестве простого примера, нейронная сеть, выполняющая текстовую задачу, такая как ChatGPT, генерирующая предложения текста, может сломаться, когда ей также, скажем, нужно будет генерировать изображения, если детали, относящиеся к последней задаче, были отброшены во время этапа сжатия.
Как пишут Шварц-Зив и Лекун, «разделение информации на соответствующие и нерелевантные компоненты становится сложной задачей, часто приводящей к субоптимальным результатам».
Пока нет четкого ответа на эту проблему, заявляют ученые. Это потребует дальнейших исследований, в частности, переопределения многогранного подхода с чего-то, что включает только два разных представления объекта, возможно, на множество представлений.
«Чтобы обеспечить оптимальность этой цели, мы должны расширить многогранное предположение, чтобы включить более двух взглядов», — пишут они. В частности, традиционный подход к многогранности предполагает, «что соответствующая информация общая для всех различных взглядов и задач, что может быть чрезмерно ограничительным», добавляют они. Возможно, представления имеют общую информацию только в некоторых контекстах.
«Следовательно», заключают они, «определение и анализ более тонкой версии этого решения крайне важны».
Без сомнения, подъем мультимодальности подтолкнет науку о многогранном подходе к разработке новых решений. Взрыв мультимодальности на практике приведет к новым теоретическим прорывам в области ИИ.
