Во вторник Meta* анонсировала SeamlessM4T, мультимодальную ИИ-модель для перевода речи и текста. Как нейронная сеть, которая может обрабатывать как текст, так и аудио, она может выполнять преобразование текста в речь, речи в текст, речи в речь и текста в текст на «до 100 языков», согласно Meta*. Ее цель — помочь людям, говорящим на разных языках, более эффективно общаться друг с другом.
Продолжая относительно открытый подход Meta* к ИИ, компания выпускает SeamlessM4T по исследовательской лицензии (CC BY-NC 4.0), которая позволяет разработчикам строить свои решения на ее основе. Она также выпускают SeamlessAlign, который Meta* называет «самый большой открытый мультимодальный набор данных для перевода на сегодняшний день, всего 270 000 часов извлеченных речевых и текстовых выравниваний». Это, вероятно, даст толчок обучению будущих ИИ-моделей перевода другими исследователями.
Среди возможностей SeamlessM4T, рекламируемых Meta* на своем промо-блоге, компания говорит, что модель может выполнять распознавание речи (вы даете ей аудио речь, и она преобразует ее в текст), перевод речь в текст (она переводит аудио речь на другой язык в текстовом виде), перевод речь в речь (вы вводите аудио речь, и она выдает переведенную аудио речь), перевод текст в текст (аналогично тому, как работает Google Переводчик) и перевод текст-в-речь (вы вводите текст, и она переведет и озвучит его на другом языке). Каждая из функций перевода текста поддерживает почти 100 языков, а функции синтеза речи поддерживают около 36 языков озвучки.
В анонсе SeamlessM4T Meta* ссылается на Вавилонскую рыбу, вымышленную рыбу из классической научно-фантастической серии Дугласа Адамса, которая, когда помещена в ухо, может мгновенно переводить любую произнесенную речь:
«Создание универсального переводчика языков, как вымышленная Вавилонская рыба в Автостопом по галактике, сложно, потому что существующие системы речь в речь и речь в текст охватывают лишь малую часть языков мира. Но мы считаем, что работа, которую мы анонсируем сегодня, является значительным шагом вперед в этом путешествии».
Как они ее обучали? Согласно исследовательской работе Seamless4MT, исследователи Meta* «создали мультимодальный корпус автоматически выровненных переводов речи продолжительностью более чем 470 000 часов, названный SeamlessAlign». Затем они «отфильтровали часть этого корпуса с помощью данных, размеченных людьми и псевдо размеченных, продолжительностью 406 000 часов».
Как обычно, Meta* немного туманно говорит о том, откуда она получила свои обучающие данные. Текстовые данные поступили из «того же набора данных, развернутого в NLLB» (наборы предложений, извлеченных из Википедии, новостных источников, постановочных речей и других источников и переведенных профессиональными переводчиками). А речевые данные SeamlessM4T поступили из «4 млн часов исходного аудио, поступающего из общедоступного репозитория извлеченных веб-данных», из которых 1 млн часов были на английском языке, согласно исследовательской работе. Meta* не уточнила, из какого именно репозитория или откуда поступили использованные аудиоклипы.
Meta* далеко не первая ИИ-компания, предлагающая инструменты машинного перевода. Google Переводчик использует методы машинного обучения с 2006 года, а крупные языковые модели (такие как GPT-4) хорошо известны своей способностью переводить между языками. Но в последнее время технологии активно развиваются в области обработки аудио. В сентябре OpenAI выпустила собственную открытую модель перевода речи в текст Whisper, которая может распознавать речь в аудио и переводить ее в текст с высоким уровнем точности.
SeamlessM4T развивает эту тенденцию, расширяя мультимодальный перевод на множество других языков. Кроме того, Meta* говорит, что «единый системный подход» SeamlessM4T — монолитная ИИ-модель вместо нескольких моделей, комбинируемых в цепочку (как в некоторых предыдущих техниках обработки аудио Meta*) — снижает ошибки и повышает эффективность процесса перевода.
Более технические детали о работе SeamlessM4T доступны на веб-сайте Meta*, а ее код и веса (фактически обученные файлы нейронной сети) можно найти на Hugging Face.
*Meta признана экстремистcкой организацией в России.