Meta* начинает тестирование конкурирующего с GPT-4V мультимодального ИИ в смарт-очках Ray-Ban Meta*

Вслед за выпуском нового ИИ для клонирования голоса под названием Audiobox, Meta* Platforms объявила, что на этой неделе в США начнутся небольшие испытания нового мультимодального ИИ, предназначенного для работы в ее смарт-очках Ray-Ban Meta*, созданных в партнерстве с компанией Ray-Ban, производящей очки.

Новый мультимодальный ИИ Meta* будет запущен в 2024 году, как сообщил в своем видеопосте в Instagram* технический директор Meta* Эндрю Босворт (он же «Боз»), долгое время проработавший в Facebook*.

«В следующем году мы собираемся запустить мультимодальную версию ИИ-ассистента, который будет использовать преимущества камеры на очках, чтобы предоставить вам информацию не только о заданном вопросе, но и об окружающем мире», — заявил Боз. «И я очень рад сообщить, что начиная с этой недели мы будем тестировать этот мультимодальный ИИ в бета-версии по программе раннего доступа здесь, в США».

Боз не указал в своем сообщении, как принять участие в программе.

Очки, последняя версия которых была представлена на ежегодной конференции Connect компании Meta* в Пало-Альто в сентябре, стоят 299 долларов США и уже поставляются со встроенным помощником ИИ на борту, но он довольно ограничен и не может интеллектуально реагировать на видео или фотографии, не говоря уже о прямом просмотре того, что видит пользователь, несмотря на наличие встроенных камер в очках.

Вместо этого ассистент был разработан просто для голосового управления, то есть владелец говорит с ним, как с голосовым помощником, подобным Alexa от Amazon или Siri от Apple.

Боз продемонстрировал одну из новых возможностей мультимодальной версии в своем посте в Instagram*, включив в него видеоролик, на котором он в очках смотрит на подсвеченный предмет декора, изображающий штат Калифорния в офисе. Интересно, что он держит в руках смартфон, что позволяет предположить, что для работы ИИ может потребоваться смартфон в паре с очками.

Экран, демонстрирующий вероятный пользовательский интерфейс (UI) нового мультимодального ИИ Meta*, показал, что он успешно ответил на вопрос Боза «Посмотри и скажи мне, что ты видишь» и идентифицировал произведение искусства как «деревянную скульптуру», которую он назвал «красивой».

Этот шаг, возможно, был ожидаем, учитывая то, что Meta* в целом широко использует ИИ в своих продуктах и платформах, а также продвигает ИИ с открытым исходным кодом через свою фирменную LLM Llama 2. Однако интересно видеть, что первые попытки мультимодального ИИ предпринимаются не в виде модели с открытым исходным кодом в Интернете, а с помощью устройства.

Продвижение генеративного ИИ в категорию аппаратного обеспечения пока происходит медленно: несколько небольших стартапов, включая Humane с ее «Ai Pin», работающим под управлением GPT-4V от OpenAI, сделали первые попытки создать специализированные ИИ-устройства.

Тем временем OpenAI пошла по пути предложения GPT-4V, собственного мультимодального ИИ (буква «V» означает «видение»), через свое приложение ChatGPT для iOS и Android, хотя для доступа к этой модели также требуется подписка Chat GPT Plus (20 долларов в месяц) или Enterprise (цена переменная).

Этот шаг также напоминает о неудачных испытаниях Google Glass, раннего прототипа умных очков 2010-х годов, которые, несмотря на большой ажиотаж перед запуском, были осмеяны за свой модный стиль (или его отсутствие) и заметную аудиторию ранних пользователей (породившую термин «Glassholes»), а также ограниченное практическое применение.

Сможет ли новый мультимодальный ИИ для умных очков Ray-Ban Meta* избежать ловушки Glasshole? Прошло ли достаточно времени и изменилось ли отношение к камере, прикрепленной к лицу, чтобы продукт такого рода стал успешным?

*Деятельность Meta (Facebook и Instagram) запрещена в России как экстремистская.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *