Модели искусственного интеллекта мощны, но правдоподобны ли они с биологической точки зрения?

Искусственные нейронные сети, повсеместные модели машинного обучения, которые можно обучить выполнению многих задач, так называются, потому что их архитектура вдохновлена тем, как биологические нейроны обрабатывают информацию в человеческом мозге.

Около шести лет назад ученые открыли новый, более мощный тип нейронной сети, известный как трансформер. Эти модели могут достичь беспрецедентной производительности, например, генерируя текст из подсказок с почти человеческой точностью. Трансформер лежит в основе таких систем ИИ, как ChatGPT и Bard. Хотя они невероятно эффективны, трансформеры также загадочны: в отличие от других моделей нейронных сетей, вдохновленных мозгом, до сих пор не ясно, как их можно построить с использованием биологических компонентов.

Теперь исследователи из Массачусетского технологического института, лаборатории MIT-IBM Watson AI и Медицинской школы Гарварда выдвинули гипотезу, которая может объяснить, как трансформер может быть построен с использованием биологических элементов в мозгу. Они предполагают, что биологическая сеть, состоящая из нейронов и других клеток мозга, называемых астроцитами, может выполнять то же основное вычисление, что и трансформер.

Недавние исследования показали, что астроциты, ненейрональные клетки, которых много в мозге, общаются с нейронами и играют роль в некоторых физиологических процессах, таких как регуляция кровотока. Но ученые все еще не имеют четкого понимания того, что эти клетки делают с точки зрения вычислений.

В новом исследовании, опубликованном на этой неделе в Proceedings of the National Academy of Sciences, исследователи изучили роль астроцитов в мозге с вычислительной точки зрения и разработали математическую модель, показывающую, как их можно использовать вместе с нейронами для построения биологически правдоподобного трансформера.

Их гипотеза дает представление о том, как можно стимулировать будущие нейробиологические исследования того, как работает человеческий мозг. В то же время она может помочь исследователям машинного обучения объяснить, почему трансформеры настолько успешны в широком спектре сложных задач.

«Мозг намного превосходит даже лучшие искусственные нейронные сети, которые мы разработали, но мы точно не знаем, как именно работает мозг. Есть научная ценность в размышлении о связях между биологическим оборудованием и крупными сетями искусственного интеллекта. Это нейронаука для ИИ и ИИ для нейронауки», — говорит Дмитрий Кротов, научный сотрудник лаборатории MIT-IBM Watson AI и старший автор исследовательской работы.

Вместе с Кротовым в статье участвуют ведущий автор Лео Козачков, постдок кафедры мозговых и когнитивных наук Массачусетского технологического института; и Ксения В. Кастаненка, доцент нейробиологии в Медицинской школе Гарварда и ассистент-исследователь в Массачусетском институте общих исследований.

Биологическая невозможность становится правдоподобной

Трансформеры работают иначе, чем другие нейронные сетевые модели. Например, рекуррентная нейронная сеть, обученная для обработки естественного языка, сравнивала бы каждое слово в предложении с внутренним состоянием, определяемым предыдущими словами. Трансформер, с другой стороны, сравнивает сразу все слова в предложении, чтобы сгенерировать предсказание — это процесс называется самовниманием.

Для того, чтобы самовнимание работало, трансформер должен держать все слова готовыми в какой-то форме памяти, объясняет Кротов. Но это казалось биологически невозможным из-за того, как общаются нейроны.

Однако несколько лет назад ученые, изучавшие слегка другой тип модели машинного обучения (известный как Плотная ассоциативная память), поняли, что этот механизм самовнимания может происходить в мозге, но только если есть связь между по крайней мере тремя нейронами.

«Число три действительно бросилось мне в глаза, потому что известно в нейронауке, что эти клетки, называемые астроцитами, которые не являются нейронами, образуют трехсторонние связи с нейронами, то есть тройные синапсы», — говорит Козачков.

Когда два нейрона общаются, пресинаптический нейрон посылает химические вещества, называемые нейротрансмиттерами, через синапс, который соединяет его с постсинаптическим нейроном. Иногда к синапсу также подключен астроцит — он оборачивает длинный тонкий отросток вокруг синапса, создавая тройной синапс. Один астроцит может формировать миллионы тройных синапсов.

Астроцит собирает некоторые нейромедиаторы, протекающие через синаптическое соединение. В какой-то момент астроцит может посылать сигнал обратно нейронам. Поскольку астроциты работают на гораздо более длительной временной шкале, чем нейроны — они создают сигналы путем медленного повышения своей кальциевой реакции, а затем снижения ее — эти клетки могут удерживать и интегрировать информацию, сообщаемую им нейронами. Таким образом, астроциты могут формировать своего рода буфер памяти, говорит Кротов.

«Если посмотреть на это с такой точки зрения, то астроциты крайне естественны для точного вычисления внимания, которое нам нужно выполнить внутри трансформеров», — добавляет он.

Построение нейронно-астроцитарной сети

С этой идеей исследователи сформировали гипотезу о том, что астроциты могут играть роль в том, как трансформеры выполняют вычисления. Затем они приступили к построению математической модели нейронно-астроцитарной сети, которая работала бы как трансформер.

Они взяли базовую математику, которая составляет трансформер, и разработали простые биофизические модели того, что делают астроциты и нейроны при взаимодействии в мозге, основанные на углубленном анализе литературы и руководстве от сотрудничающих нейробиологов.

Затем они комбинировали модели определенным образом, пока не пришли к уравнению нейронно-астроцитарной сети, описывающему самовнимание трансформера.

«Иногда мы обнаруживали, что некоторые вещи, которые мы хотели, чтобы были правдой, не могут быть правдоподобно реализованы. Поэтому нам приходилось думать о обходных путях. Есть некоторые вещи в статье, которые являются очень осторожными приближениями архитектуры трансформера, чтобы совместить ее биологически правдоподобным образом», — говорит Козачков.

Благодаря своему анализу исследователи показали, что их биофизическая нейронно-астроцитарная сеть теоретически соответствует трансформеру. Кроме того, они провели численное моделирование, подавая изображения и абзацы текста в модели трансформеров и сравнивая отклики с откликами своей смоделированной нейронно-астроцитарной сети. Обе отреагировали на подсказки аналогичным образом, подтверждая их теоретическую модель.

Следующим шагом для исследователей является переход от теории к практике. Они надеются сравнить прогнозы модели с теми, которые наблюдались в биологических экспериментах, и использовать эти знания для уточнения или возможного опровержения их гипотезы.

Кроме того, одно из следствий их исследования заключается в том, что астроциты могут быть вовлечены в долговременную память, поскольку сети необходимо хранить информацию, чтобы воздействовать на нее в будущем. Дополнительные исследования могли бы далее изучить эту идею, говорит Кротов.

«По многим причинам астроциты чрезвычайно важны для когнитивных функций и поведения, и они работают фундаментально иначе, чем нейроны. Моя главная надежда на эту статью заключается в том, что она катализирует множество исследований в области вычислительной нейронауки в отношении глиальных клеток, и в частности астроцитов», — добавляет Козачков.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *