Meta* AI представила «бесшовный» переводчик — Seamless Communication — для общения на разных языках в режиме реального времени

В четверг исследователи Meta* AI объявили о разработке нового набора моделей искусственного интеллекта под названием Seamless Communication, который призван обеспечить более естественную и достоверную коммуникацию между представителями разных языков — по сути, воплотить в жизнь концепцию универсального речевого переводчика. Модели были опубликованы на этой неделе вместе с исследовательскими работами и сопроводительными данными.

Флагманская модель под названием Seamless объединяет возможности трех других моделей — SeamlessExpressive, SeamlessStreaming и SeamlessM4T v2 — в одну единую систему. Согласно исследовательскому документу, Seamless — «первая общедоступная система, которая открывает возможности выразительной межъязыковой коммуникации в режиме реального времени».

Как Seamless работает в качестве универсального переводчика в режиме реального времени

Переводчик Seamless представляет собой новый рубеж в использовании искусственного интеллекта для общения. Он сочетает в себе три сложные нейросетевые модели, позволяющие в режиме реального времени переводить более 100 устных и письменных языков, сохраняя при этом стиль речи, эмоции и просодию голоса говорящего.

SeamlessExpressive фокусируется на сохранении вокального стиля и эмоциональных нюансов голоса говорящего при переводе с одного языка на другой. Как говорится в статье, «переводы должны передавать нюансы человеческой речи. Хотя существующие инструменты перевода умеют передавать содержание разговора, они, как правило, используют монотонные роботизированные системы преобразования текста в речь».

SeamlessStreaming обеспечивает перевод практически в режиме реального времени с задержкой всего около двух секунд. По словам исследователей, это «первая массовая многоязычная модель», обеспечивающая столь высокую скорость перевода почти на 100 устных и письменных языках.

Третья модель, SeamlessM4T v2, служит основой для двух других моделей. Она представляет собой обновленную версию оригинальной модели SeamlessM4T, выпущенной в прошлом году. Новая архитектура обеспечивает «улучшенную согласованность между текстом и речью», говорится в статье.

«В итоге Seamless дает нам возможность взглянуть на техническую основу, необходимую для превращения универсального речевого переводчика из научно-фантастической концепции в реально существующую технологию», — пишут исследователи.

Потенциал для преобразования глобальной коммуникации

Возможности модели могут обеспечить новые возможности голосового общения — от многоязычных разговоров в режиме реального времени с помощью умных очков до автоматического дублирования видео и подкастов. По мнению исследователей, это также может помочь преодолеть языковые барьеры для иммигрантов и других людей, испытывающих трудности в общении.

«Публично публикуя результаты нашей работы, мы надеемся, что исследователи и разработчики смогут расширить влияние нашего вклада, создавая технологии, направленные на установление многоязычных контактов во все более взаимосвязанном и взаимозависимом мире», — говорится в статье.

Однако исследователи признают, что технология также может быть использована не по назначению для голосового фишинга, дипфейков и других вредных применений. Чтобы обеспечить безопасность и ответственное использование моделей, они приняли ряд мер, включая наложение водяного знака на аудио и новые методы для уменьшения количества галлюцинаций.

Модели, публично опубликованные на Hugging Face

В соответствии с приверженностью Meta* к открытым исследованиям и сотрудничеству, модели Seamless Communication были публично опубликованы на Hugging Face и Github.

Коллекция включает модели Seamless, SeamlessExpressive, SeamlessStreaming и SeamlessM4T v2 вместе с сопутствующими метаданными.

Предоставляя эти современные модели обработки естественного языка в свободный доступ, Meta* надеется, что исследователи и разработчики смогут использовать и расширять эти наработки, чтобы помочь наладить связь между людьми разных языков и культур. Этот релиз подчеркивает лидерство Meta* в области ИИ с открытым исходным кодом и предоставляет новый ценный ресурс для исследовательского сообщества.

«В целом, многомерный опыт, который может создать Seamless, может привести к шагу вперед в том, как осуществляется межъязыковая коммуникация с помощью машин», — заключили исследователи.

*Meta признана экстремистcкой организацией в России.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *