В четверг исследователи Meta* AI объявили о разработке нового набора моделей искусственного интеллекта под названием Seamless Communication, который призван обеспечить более естественную и достоверную коммуникацию между представителями разных языков — по сути, воплотить в жизнь концепцию универсального речевого переводчика. Модели были опубликованы на этой неделе вместе с исследовательскими работами и сопроводительными данными.
Флагманская модель под названием Seamless объединяет возможности трех других моделей — SeamlessExpressive, SeamlessStreaming и SeamlessM4T v2 — в одну единую систему. Согласно исследовательскому документу, Seamless — «первая общедоступная система, которая открывает возможности выразительной межъязыковой коммуникации в режиме реального времени».
Как Seamless работает в качестве универсального переводчика в режиме реального времени
Переводчик Seamless представляет собой новый рубеж в использовании искусственного интеллекта для общения. Он сочетает в себе три сложные нейросетевые модели, позволяющие в режиме реального времени переводить более 100 устных и письменных языков, сохраняя при этом стиль речи, эмоции и просодию голоса говорящего.
SeamlessExpressive фокусируется на сохранении вокального стиля и эмоциональных нюансов голоса говорящего при переводе с одного языка на другой. Как говорится в статье, «переводы должны передавать нюансы человеческой речи. Хотя существующие инструменты перевода умеют передавать содержание разговора, они, как правило, используют монотонные роботизированные системы преобразования текста в речь».
SeamlessStreaming обеспечивает перевод практически в режиме реального времени с задержкой всего около двух секунд. По словам исследователей, это «первая массовая многоязычная модель», обеспечивающая столь высокую скорость перевода почти на 100 устных и письменных языках.
Третья модель, SeamlessM4T v2, служит основой для двух других моделей. Она представляет собой обновленную версию оригинальной модели SeamlessM4T, выпущенной в прошлом году. Новая архитектура обеспечивает «улучшенную согласованность между текстом и речью», говорится в статье.
«В итоге Seamless дает нам возможность взглянуть на техническую основу, необходимую для превращения универсального речевого переводчика из научно-фантастической концепции в реально существующую технологию», — пишут исследователи.
Потенциал для преобразования глобальной коммуникации
Возможности модели могут обеспечить новые возможности голосового общения — от многоязычных разговоров в режиме реального времени с помощью умных очков до автоматического дублирования видео и подкастов. По мнению исследователей, это также может помочь преодолеть языковые барьеры для иммигрантов и других людей, испытывающих трудности в общении.
«Публично публикуя результаты нашей работы, мы надеемся, что исследователи и разработчики смогут расширить влияние нашего вклада, создавая технологии, направленные на установление многоязычных контактов во все более взаимосвязанном и взаимозависимом мире», — говорится в статье.
Однако исследователи признают, что технология также может быть использована не по назначению для голосового фишинга, дипфейков и других вредных применений. Чтобы обеспечить безопасность и ответственное использование моделей, они приняли ряд мер, включая наложение водяного знака на аудио и новые методы для уменьшения количества галлюцинаций.
Модели, публично опубликованные на Hugging Face
В соответствии с приверженностью Meta* к открытым исследованиям и сотрудничеству, модели Seamless Communication были публично опубликованы на Hugging Face и Github.
Коллекция включает модели Seamless, SeamlessExpressive, SeamlessStreaming и SeamlessM4T v2 вместе с сопутствующими метаданными.
Предоставляя эти современные модели обработки естественного языка в свободный доступ, Meta* надеется, что исследователи и разработчики смогут использовать и расширять эти наработки, чтобы помочь наладить связь между людьми разных языков и культур. Этот релиз подчеркивает лидерство Meta* в области ИИ с открытым исходным кодом и предоставляет новый ценный ресурс для исследовательского сообщества.
«В целом, многомерный опыт, который может создать Seamless, может привести к шагу вперед в том, как осуществляется межъязыковая коммуникация с помощью машин», — заключили исследователи.
*Meta признана экстремистcкой организацией в России.