Одна из функций, добавленных на этой неделе в ИИ Copilot браузера Edge от Microsoft, — возможность генерировать текстовые резюме видеороликов. Однако, как пояснил Михаил Парахин, генеральный директор Microsoft по рекламе и веб-сервисам, функция Edge Copilot, позволяющая сэкономить время, все еще довольно ограничена и работает только на предварительно обработанных видео или на видео с субтитрами.
Как сообщает MSPowerUser, Парахин в ответ на вопрос пишет: «Для того чтобы функция работала, нам нужно предварительно обработать видео. Если в видео есть субтитры — мы всегда можем на них опереться, если же их нет, и мы еще не провели предварительную обработку — тогда это не будет работать».
Другими словами, в своем собственном Edge Copilot не столько резюмирует видео, сколько обобщает текстовые расшифровки к нему. Copilot также может выполнять аналогичные функции в Microsoft 365, в том числе резюмировать видеовстречи в Teams и звонки для агентов службы поддержки — и в обоих случаях аудиозапись должна быть сначала расшифрована Microsoft. Copilot в Microsoft Stream также может резюмировать любое видео, но опять же требует от пользователей создания письменного транскрипта.
Разговор начался после того, как дизайнер Пьетро Ширано опубликовал запись экрана, на котором Edge Copilot резюмирует видео на YouTube о трейлере GTA VI. В данном случае Copilot, как оказалось, отлично справляется со своей работой. Пользователь на записи нажимает кнопку «Сгенерировать краткое содержание видео» в боковой панели Copilot, и спустя всего несколько секунд Copilot выдает его, дополненное основными моментами и временными метками.
Конечно, многие платформы, включая YouTube и Vimeo, могут автоматически генерировать транскрипты и субтитры — если пользователи включат эту функцию. После того как The Verge спросил Парахина на X, можно ли считать, что большинство общедоступных видео (например, YouTube) не подвергаются предварительной обработке, он ответил: «Должно работать для большинства видео».
Copilot — это лишь последний пример гонки генеративного ИИ, в которой Microsoft соревнуется с Google и другими компаниями. В прошлом месяце Google обновила расширение YouTube для своего чат-бота Bard, чтобы он мог обобщать содержание видео и извлекать из него конкретную информацию. А буквально на этой неделе Google представила модель искусственного интеллекта Gemini, у которой есть свои проблемы: в демонстрационном ролике компания, возможно, исказила некоторые возможности ИИ, и он не всегда правильно излагает факты.
Парахин откровенно рассказывал о различных этапах эволюции Copilot в социальных сетях. Во вторник утром, находясь в самолете, эксперт по машинному обучению написал на сайте X: «Добавление возможности для Edge Copilot использовать информацию в видео — уже в полете».