После того как на прошлой неделе Gemini, недавно анонсированное флагманское семейство моделей генеративного искусственного интеллекта, появилось в Bard и Pixel 8 Pro, оно стало доступно для клиентов Google Cloud, использующих Vertex AI.
Gemini Pro, облегченная версия более мощной модели Gemini, Gemini Ultra, которая в настоящее время находится в закрытой предварительной версии для «избранных» клиентов, теперь доступна в публичной предварительной версии в Vertex AI, полностью управляемой платформе Google для разработки ИИ, с помощью нового API Gemini Pro. API пока что можно использовать бесплатно «в пределах ограничений», он поддерживает 38 языков и регионов, включая Европу, а также такие функции, как чат и фильтрация.
«Gemini — это современная изначально мультимодальная модель, обладающая сложными рассуждениями и продвинутыми навыками кодирования», — сказал генеральный директор Google Cloud Томас Куриан на пресс-брифинге во вторник. «Теперь разработчики смогут создавать на ее основе свои собственные приложения».
По умолчанию API Gemini Pro в Vertex AI принимает текст на вход и генерирует текст на выходе, подобно API генеративных текстовых моделей, таких как Anthropic, AI21 и Cohere. Дополнительная конечная точка, Gemini Pro Vision, также запущенная сейчас в предварительном просмотре, может обрабатывать текст и изображения — включая фотографии и видео — и выдавать текст по аналогии с моделью GPT-4 with Vision от OpenAI.
Обработка изображений устраняет одно из основных критических замечаний в адрес Gemini после ее презентации в прошлую среду — а именно, что версия Gemini, на которой работает Bard, доработанная модель Gemini Pro, не может принимать изображения, хотя технически является «мультимодальной» (т. е. обученной на ряде данных, включая текст, изображения, видео и аудио). Остаются вопросы относительно производительности и навыков Gemini по анализу изображений, особенно в свете вводящей в заблуждение демонстрации продукта. Но теперь, по крайней мере, пользователи смогут сами опробовать эту модель и ее способности к анализу изображений.
В рамках Vertex AI разработчики могут настраивать Gemini Pro под конкретные контексты и случаи использования, используя те же инструменты тонкой настройки, которые доступны для других моделей, размещенных в Vertex, например PaLM 2 от Google. Gemini Pro также можно подключать к внешним API для выполнения определенных действий или «заземления», чтобы повысить точность и релевантность ответов модели, либо с помощью сторонних данных из приложения или базы данных, либо с помощью данных из Интернета и Google Search.
Проверка цитирования — еще одна существующая возможность Vertex AI, теперь поддерживаемая Gemini Pro, — служит дополнительной мерой проверки фактов, указывая источники информации, которые Gemini Pro использовала для получения ответа.
«Заземление позволяет нам взять ответ, сгенерированный Gemini, и сравнить его с набором данных, которые находятся в собственных системах компании… или в веб-источниках», — говорит Куриан. «Такое сравнение позволяет повысить качество ответов модели».
Куриан уделил немало времени возможностям контроля, модерации и управления Gemini Pro — похоже, он пытался противостоять сообщениям о том, что Gemini Pro — не самая сильная модель на свете. Достаточно ли этих заверений, чтобы убедить разработчиков? Возможно. Но если нет, Google подсластит предложение скидками.
Входные данные для Gemini Pro на Vertex AI будут стоить 0,00025 доллара за символ, а выходные — 0,00005 доллара за символ. Клиенты Vertex платят за 1000 символов, а в случае таких моделей, как Gemini Pro Vision, — за изображение. Это в 4 раза и в 2 раза меньше, чем у предшественника Gemini Pro. В течение ограниченного времени — до начала следующего года — Gemini Pro можно попробовать бесплатно для клиентов Vertex AI.
«Наша цель — привлечь разработчиков привлекательными ценами», — откровенно говорит Куриан.
Google привносит в Vertex AI и другие новые функции, надеясь переманить разработчиков с конкурирующих платформ вроде Bedrock.
Некоторые из них относятся к Gemini Pro. Вскоре клиенты Vertex смогут использовать Gemini Pro для создания собственных голосовых и чат-агентов, обеспечивающих, по словам Google, «динамическое взаимодействие… с поддержкой расширенных рассуждений». Gemini Pro также станет опцией для управления функциями обобщения результатов поиска, рекомендаций и генерации ответов в Vertex AI, используя документы различных форматов (например, PDF, изображения) из разных источников (например, OneDrive, Salesforce) для выполнения запросов.
По словам Куриана, он ожидает, что разговорные и поисковые функции на базе Gemini Pro появятся «очень рано», в 2024 году.
Кроме того, в Vertex появилась функция Automatic Side by Side (Auto SxS). Являясь ответом на недавно анонсированную AWS функцию оценки моделей на Bedrock, Auto SxS позволяет разработчикам оценивать модели «по требованию», «автоматизированным» способом.
Google также добавляет в Vertex модели от третьих сторон, и внедряет «пошаговую» дистилляцию — технику, которая позволяет создавать более компактные, специализированные модели с низким уровнем задержки из более крупных моделей. Кроме того, Google расширяет свою политику возмещения ущерба, включая результаты PaLM 2 и модели Imagen, что означает, что компания будет юридически защищать соответствующих клиентов, вовлеченных в судебные процессы по спорам об интеллектуальной собственности, связанным с результатами этих моделей.
Генеративные модели ИИ склонны к воспроизведению обучающих данных — очевидная проблема для корпоративных клиентов. Если в один прекрасный день выяснится, что поставщик, например Google, использовал для обучения модели данные, защищенные авторским правом, без предварительного получения соответствующей лицензии, клиенты этого поставщика могут оказаться на крючке за включение в свои проекты работ, которые нарушают права на интеллектуальную собственность.
Некоторые поставщики в качестве защиты заявляют о добросовестном использовании. Но, понимая настороженность предприятий, все большее их число расширяет политику возмещения ущерба в отношении предложений в области технологий генеративного искусственного интеллекта.
Компания Google не стала расширять политику возмещения убытков Vertex AI, чтобы распространить ее на клиентов, использующих API Gemini Pro. Однако компания заявляет, что сделает это, как только API Gemini Pro будет запущен публично.