В среду компания Google анонсировала Gemini — семейство мультимодальных моделей искусственного интеллекта, которое, как она надеется, сможет соперничать с GPT-4 от OpenAI, на котором основана платная версия ChatGPT. Google утверждает, что самая большая версия Gemini превосходит «текущие современные показатели в 30 из 32 широко распространенных академических тестах, используемых в исследованиях и разработке больших языковых моделей (LLM)». Это продолжение PaLM 2, более ранней модели ИИ, которая, как надеялись в Google, сможет сравниться по возможностям с GPT-4.
Специально настроенная английская версия модели среднего уровня Gemini уже доступна в более чем 170 странах в составе чат-бота Google Bard, но не в ЕС и Великобритании из-за возможных проблем с регулированием.
Как и GPT-4, Gemini может обрабатывать несколько типов (или «режимов») ввода, что делает ее мультимодальной. Это означает, что она может обрабатывать текст, код, изображения и даже аудио. Целью разработки является создание искусственного интеллекта, способного точно решать проблемы, давать советы и отвечать на вопросы в различных областях — от обыденных до научных. Google утверждает, что это позволит открыть новую эру в вычислительной технике, и надеется плотно интегрировать технологию в свои продукты.
«Сложные мультимодальные способности Gemini 1.0 помогут понять смысл сложной письменной и визуальной информации», — пишет Google. «Ее замечательная способность извлекать выводы из сотен тысяч документов путем чтения, фильтрации и понимания информации поможет совершить новые прорывы на цифровых скоростях во многих областях — от науки до финансов».
По словам Google, Gemini будет выпускаться в трех вариантах: Gemini Ultra («для очень сложных задач»), Gemini Pro («для масштабирования широкого круга задач») и Gemini Nano («для задач на устройстве», как в смартфоне Google Pixel 8 Pro). Каждая из них, вероятно, разделяется по сложности в зависимости от количества параметров. Большее количество параметров означает более крупную нейронную сеть, которая, как правило, способна выполнять более сложные задачи, но требует больше вычислительной мощности для работы. Это означает, что Nano, самая маленькая, предназначена для локальной работы на потребительских устройствах, в то время как Ultra может работать только на оборудовании центра обработки данных.
«Это первые модели эры Gemini и первая реализация нашего видения, которое мы имели, когда сформировали Google DeepMind в начале этого года», — написал в своем заявлении генеральный директор Google Сундар Пичаи. «Эта новая эра моделей представляет собой одну из самых масштабных научных и инженерных работ, которые мы проводили как компания. Я искренне рад тому, что ждет нас впереди, и тем возможностям, которые Gemini откроет для людей во всем мире».
Хотя Gemini будет выпускаться в трех вариантах, для публичного использования доступна только модель среднего уровня. Как уже упоминалось выше, в Google Bard теперь работает специально настроенная версия Gemini Pro. По результатам неофициального тестирования, Gemini Pro работает гораздо лучше, чем предыдущая версия Bard, которая была основана на языковой модели Google PaLM 2.
Google также утверждает, что Gemini более масштабируема и эффективна, чем ее предыдущие модели ИИ, когда работает на пользовательских блоках обработки тензоров (TPU) Google. «На TPU, — говорят в Google, — Gemini работает значительно быстрее, чем предыдущие, более компактные и менее производительные модели».
И, как утверждается, она отлично справляется с кодированием. Google подготовила специальную версию Gemni под названием AlphaCode 2, ориентированную на кодирование, которая, по словам Google, «отлично справляется с решением задач конкурентного программирования, выходящих за рамки кодирования и включающих сложную математику и теоретические компьютерные науки».
В битве с GPT-4
Gemini — не первая попытка Google догнать постоянно развивающуюся модель GPT-4 (которая теперь называется «GPT-4 Turbo») от OpenAI. Вышеупомянутая PaLM 2, выпущенная в мае, изначально должна была соответствовать этой цели. По данным Google, Gemini Ultra действительно превосходит GPT-4 на бумаге, но не всех это впечатляет. Как скептически отмечает MIT Technology Review в своем обзоре Gemini, «Google DeepMind утверждает, что Gemini превосходит GPT-4 по 30 из 32 стандартных показателей производительности. И все же разница между ними невелика… Если судить по демо-версиям, она делает много вещей очень хорошо — но мало вещей, которые мы не видели раньше».
Насколько малы эти промежутки? В пресс-материалах Google приводится таблица восьми эталонов машинного обучения (MMLU, Big-Bench Hard, DROP, HellaSwag, GSM8K, MATH, HumanEval и Natural2Code), которые призваны измерить такие способности, как кодирование на Python, понимание прочитанного, многоступенчатые рассуждения, здравые рассуждения, базовая арифметика и общие знания по 57 предметам. По всем показателям, кроме одного (великолепно названного «HellaSwag»), Gemini Ultra обошла GPT-4, набрав 83,6 % против 83,1 % или 74,4 % против 67,0 %.
В частности, Google утверждает, что оценка Gemini Ultra в 90 % в тесте MMLU (массивное многозадачное понимание языка — проверка знаний по 57 предметам, таким как математика, физика, история, право, медицина и этика) делает ее первой моделью ИИ, которая превзошла экспертов-людей по этому критерию.
Но что все это значит? Для обычного человека, задающего вопрос Bard или ChatGPT-4, возможно, не так много. Google надеется, что результаты этого теста позволят получить более полезные и точные ответы. Допустим, вы покажете Bard (с помощью Gemini) фотографию вашего сломанного велосипеда и будете надеяться, что он подскажет вам, как его починить. Сможет ли он это сделать? А если нет, то имеют ли значение контрольные цифры в 2 процента по сравнению с GPT-4? В этом заключается главная проблема ИИ в настоящее время.
Даже для исследователей машинного обучения эффективность тестов машинного обучения является предметом постоянных исследований и дебатов, а их использование иногда вызывает споры из-за возможности тестирования модели ИИ на материале, который может быть найден в ее наборе данных. Поэтому важно воспринимать любые подобные показатели с большой долей скептицизма.
Пока что Google надеется, что Gemini станет первым залпом в новой главе битвы за контроль над ИИ-помощниками в будущем, противостоя таким компаниям, как Anthropic, Meta* и совместному дуэту Microsoft и OpenAI. На сайте Google DeepMind есть более подробная информация о том, как работает Gemini и каков ее потенциал в научных областях.
По словам Google, помимо версии Pro, которая сейчас доступна в Bard, доступ к Gemini 1.0 будет расширяться со временем. Она станет частью смартфона Pixel 8 Pro, на котором можно будет запустить Gemini Nano на устройстве, а в ближайшие месяцы Gemini будет интегрирована в Search, Ads, Chrome и Duet AI. А с 13 декабря разработчики и корпоративные клиенты смогут использовать Gemini Pro через Gemini API в Google AI Studio или Google Cloud Vertex AI.
*Meta признана экстремистcкой организацией в России.