Meta* представляет фреймворк для генерации звуков и музыки

День, когда генеративный ИИ сможет не только писать и создавать изображения в убедительно человеческом стиле, но и сочинять музыку и звуки, которые сойдут за работу профессионала, быстро приближается.

Вчера утром Meta* анонсировала AudioCraft — фреймворк для генерации того, что она описывает как звуки и музыку «высокого качества» и «реалистичные» из коротких текстовых описаний или подсказок. Это не первая вылазка Meta* в область генерации аудио — технологический гигант выпустил в свободный доступ генератор музыки на ИИ MusicGen в июне — но Meta* утверждает, что достигла прогресса, который значительно улучшает качество сгенерированных ИИ звуков, таких как лай собак, гудки автомобилей и шаги по деревянному полу.

В блог-посте, опубликованном в TechCrunch, Meta* объясняет, что фреймворк AudioCraft был разработан для упрощения использования генеративных моделей для аудио по сравнению с предыдущими работами в этой области (например, Riffusion, Dance Diffusion и Jukebox от OpenAI). AudioCraft, код которого доступен в открытом доступе, предоставляет набор генераторов звуков и музыки, а также алгоритмы сжатия, которые можно использовать для создания и кодирования песен и аудио, не переключаясь между разными кодовыми базами.

AudioCraft содержит три генеративные ИИ-модели: MusicGen, AudioGen и EnCodec.

MusicGen не нова. Но Meta* выпустила код для ее обучения, позволяя пользователям обучать модель на собственном наборе данных музыки.

Это может вызвать серьезные этические и юридические проблемы, учитывая, что MusicGen «учится» на существующей музыке, чтобы производить похожие эффекты — факт, с которым не все художники или пользователи генеративного ИИ чувствуют себя комфортно.

Все чаще домашние треки, которые используют генеративный ИИ для создания знакомых звуков, которые могут выдаваться за подлинные, или по крайней мере достаточно близкие, становятся вирусными. Музыкальные лейблы быстро помечают их для потоковых партнеров, ссылаясь на проблемы интеллектуальной собственности, и, как правило, они побеждают. Но по-прежнему нет ясности в том, нарушает ли «дипфейк» музыки авторские права артистов, лейблов и других правообладателей.

Meta* четко дает понять, что предобученная версия MusicGen из коробки была обучена «музыкой, принадлежащей Meta* и специально лицензированной», а именно 20 000 часов аудио — 400 000 записей вместе с текстовыми описаниями и метаданными — из собственной коллекции звуков Meta* Music Initiative, музыкальной библиотеки Shutterstock и Pond5, большой библиотеки медиафайлов. И Meta* удалила вокал из обучающих данных, чтобы предотвратить возможность модели воспроизводить голоса артистов. Но, хотя в условиях использования MusicGen не рекомендуется использовать модель для случаев использования, выходящих за рамки исследований, Meta* прямо не запрещает какие-либо коммерческие применения.

Другая модель генерации аудио AudioGen, входящая в AudioCraft, ориентирована на генерацию звуков окружающей среды и звуковых эффектов, а не музыки и мелодий.

AudioGen — это диффузионная модель, как и большинство современных генераторов изображений ( DALL-E 2 от OpenAI, Imagen от Google и Stable Diffusion). В диффузии модель учится постепенно вычитать шум из исходных данных, полностью состоящих из шума — например, аудио или изображений, — приближаясь шаг за шагом к целевому запросу.

При наличии текстового описания акустической сцены AudioGen может генерировать звуки окружающей среды с «реалистичными условиями записи» и «сложным содержанием сцены». Или, по крайней мере, так утверждает Meta*. Согласно техническому документу, опубликованному вчера утром , AudioGen также может генерировать речь из подсказок в дополнение к музыке, отражая разнообразие ее обучающих данных.

В официальном документе Meta* признает, что AudioGen может быть неправильно использован для подделки чьего-то голоса. И, учитывая возможности AudioGen, модель вызывает те же этические вопросы, что и MusicGen. Но, как и в случае с MusicGen, Meta* не накладывает много ограничений на способы использования AudioGen и ее кода обучения — во благо или во вред.

Последняя из трех моделей AudioCraft, EnCodec, является улучшением по сравнению с предыдущей моделью Meta* для генерации музыки с меньшим количеством артефактов. Meta* утверждает, что она более эффективно моделирует звуковые последовательности, захватывая разные уровни информации в формах звуковых сигналов обучающих данных, чтобы помочь создавать новое аудио.

«EnCodec — это современный аудиокодек с высокой точностью воспроизведения в реальном времени, использующий нейронные сети, который был обучен специально для сжатия любого вида аудио и реконструкции исходного сигнала с высокой точностью», — объясняет Meta* в блог-посте. “Разные потоки захватывают разные уровни информации о форме звуковой волны, позволяя нам реконструировать аудио с высокой точностью из всех потоков”.

Итак, что можно сказать об AudioCraft? Meta*, как и следовало ожидать, подчеркивает потенциальные плюсы, такие как вдохновение для музыкантов и помощь людям в повторении своих композиций «по-новому». Но, как показало появление генераторов изображений и текста, есть и недостатки, и вероятно судебные иски, таящиеся в тени.

Не обращая внимания на последствия, Meta* заявляет, что планирует продолжать исследования в области улучшения управляемости и повышения производительности генеративных аудиомоделей, а также способов смягчения ограничений и предубеждений таких моделей. По поводу предубеждений Meta* отмечает, что MusicGen плохо справляется с описаниями на языках, отличных от английского, и музыкальными стилями и культурами, которые не являются западными, из-за очень очевидных предубеждений в обучающих данных.

«Вместо того, чтобы держать работу в непроницаемом черном ящике, надо открыто говорить о том, как мы разрабатываем эти модели, и обеспечивать, чтобы они были просты в использовании для людей, будь то исследователи или музыкальное сообщество в целом, помогать людям понять, что могут и чего не могут делать эти модели, и быть вооруженными, чтобы действительно использовать их», — пишет Meta* в блог-посте. «Благодаря разработке более продвинутых средств управления мы надеемся, что такие модели могут стать полезными как для любителей музыки, так и для профессионалов».

*Meta признана экстремистcкой организацией в России.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *