ChatGPT сделал громкий прорыв во всем мире благодаря своей способности писать хорошие эссе, письма и код на основе нескольких запросов от пользователя.
Теперь команда под руководством Массачусетского технологического института (MIT) сообщает о системе, которая может привести к машинным обучающим программам, в несколько раз мощнее, чем та, которая стоит за ChatGPT. Кроме того, разработанная ими система может использовать энергии на несколько порядков меньше, чем суперкомпьютеры последнего поколения, на которых основаны модели машинного обучения сегодня.
В статье, опубликованной 17 июля в журнале Nature Photonics, исследователи сообщают о первой экспериментальной демонстрации новой системы, которая выполняет свои вычисления на основе движения света, а не электронов, с использованием сотен микронных лазеров. С помощью новой системы команда сообщает об улучшении энергоэффективности более чем в 100 раз и улучшении плотности вычислений в 25 раз, что является мерой мощности системы, по сравнению с современными цифровыми компьютерами для машинного обучения.
В своей статье авторы также отмечают, что «в будущем можно добиться улучшения еще на несколько порядков». В результате, продолжают авторы, техника «открывает путь к крупномасштабным оптоэлектронным процессорам для ускорения задач машинного обучения от центров обработки данных до децентрализованных периферийных устройств». Другими словами, мобильные телефоны и другие устройства могут стать способными запускать программы, которые в настоящее время могут выполняться только в больших центрах обработки данных.
Более того, поскольку компоненты системы могут быть созданы с использованием существующих производственных процессов, «мы ожидаем, что в течение нескольких лет она может быть масштабирована для коммерческого использования. Например, лазерные массивы, используемые в проекте, широко применяются в системах идентификации лиц и передачи данных на мобильных телефонах», говорит Зайюнь Чэнь, первый автор, который работал над проектом в качестве аспиранта в MIT в Исследовательской лаборатории электроники, а теперь является доцентом в Университете Южной Калифорнии.
«Размер ChatGPT ограничен мощностью современных суперкомпьютеров. Экономически невыгодно обучать модели, которые намного больше. Наша новая технология может сделать возможным создание моделей машинного обучения, которые в противном случае не были бы доступны в ближайшем будущем», — говорит Дирк Энглунд, доцент кафедры электротехники и компьютерных наук (EECS) Массачусетского технологического института (MIT) и руководитель работы.
Он продолжает: «Мы не знаем, какие возможности появятся у следующего поколения ChatGPT, если оно будет в 100 раз мощнее, но именно такой режим открытий может обеспечить подобная технология». Энглунд также руководит Лабораторией квантовой оптики MIT и сотрудничает с Исследовательской лабораторией электроники (RLE) и Лабораторией исследования материалов.
Непрерывный прогресс
Текущая работа является последним достижением в непрерывном прогрессе за последние несколько лет Энглунда и многих его коллег. Например, в 2019 году команда Энглунда сообщила о теоретической работе, которая привела к текущей демонстрации. Первый автор той статьи, Райан Хамерли, который сейчас работает в RLE и NTT Research Inc, также является соавтором текущей статьи.
Дополнительными соавторами текущей статьи в Nature Photonics являются Александр Сладдс, Рональд Дэвис, Иан Кристен, Лиан Бернштейн и Ламия Атешан из RLE, а также Тобиас Хойзер, Нильс Хирмайер, Джеймс Лотт и Штефан Райтценштайн из Берлинского технического университета.
Глубокие нейронные сети (DNN), подобные той, которая стоит за ChatGPT, основаны на огромных моделях машинного обучения, которые имитируют, как обрабатывает информацию мозг. Однако цифровые технологии, лежащие в основе современных DNN, достигают своих пределов, в то время как область машинного обучения продолжает развиваться. Кроме того, для их работы требуется огромное количество энергии, и они в основном ограничены крупными центрами обработки данных. Это стимулирует развитие новых парадигм вычислений.
Преимущества света
Использование света вместо электронов для выполнения вычислений DNN имеет потенциал для преодоления текущих проблем. Вычисления с использованием оптики, например, могут потреблять гораздо меньше энергии, чем на основе электроники. Более того, с оптикой «можно иметь гораздо большую пропускную способность», или плотность вычислений, говорит Чэнь. Свет может передавать намного больше информации на гораздо меньшей площади.
Однако у текущих оптических нейронных сетей (ONN) есть значительные проблемы. Например, они используют большое количество энергии, потому что неэффективно преобразуют входные данные на основе электрической энергии в свет. Кроме того, используемые компоненты объемны и занимают много места. И хотя ONN довольно хороши в линейных вычислениях, таких как сложение, они не так хороши в нелинейных вычислениях, таких как умножение и условные операторы «if».
В текущей работе исследователи представляют компактную архитектуру, которая впервые решает все эти проблемы и две другие одновременно. Эта архитектура основана на передовых массивах поверхностно излучающих лазеров с вертикальным резонатором (VCSEL), относительно новой технологии, используемой в приложениях, включая удаленное зондирование LiDAR и лазерную печать.
Особые VCSEL, о которых сообщается в статье Nature Photonics, были разработаны группой Райтценштайна из Берлинского технического университета. «Это был совместный проект, который был бы невозможен без их участия», — говорит Хамерли.
Локан Райт — доцент Йельского университета, не участвовавший в текущих исследованиях. Райт говорит: «Работа Чжайцзюна Чэня и других вдохновляет меня и, вероятно, многих других исследователей в этой области на то, что системы на основе модулированных массивов VCSEL могут стать жизнеспособным путем к масштабным, высокоскоростным оптическим нейронным сетям».
«Конечно, современная передовая технология все еще далека от масштаба и стоимости, необходимых для практически полезных устройств, но я оптимистичен относительно того, что может быть реализовано в ближайшие годы, особенно учитывая потенциал этих систем для ускорения очень масштабных и очень дорогостоящих систем искусственного интеллекта, таких как те, которые используются в популярных текстовых системах GPT, наподобие ChatGPT».
Чэнь, Хамерли и Энглунд подали заявку на патент на свою работу.