ИИ теперь может генерировать музыку CD-качества из текста, и ситуация все улучшается

Представьте себе, что вы набираете «драматическая вступительная музыка» и слышите парящую симфонию или пишете «жуткие шаги» и получаете высококачественные звуковые эффекты. Таково обещание Stable Audio, модели ИИ «текст в звук», анонсированной в среду компанией Stability AI, которая может синтезировать музыку или звуки из письменных описаний. В скором времени подобная технология может бросить вызов музыкантам.

Если вы помните, компания Stability AI финансировала создание Stable Diffusion, модели синтеза изображений на основе скрытой диффузии, выпущенной в августе 2022 года. Не ограничившись созданием изображений, компания перешла к работе со звуком, поддержав лабораторию искусственного интеллекта Harmonai, которая в сентябре запустила генератор музыки Dance Diffusion.

Теперь Stability и Harmonai хотят выйти на рынок коммерческого ИИ-аудиопроизводства с помощью Stable Audio. Судя по образцам продукции, она значительно улучшает качество звука по сравнению с предыдущими ИИ-генераторами, которые мы видели.

На своей промо-странице Stability приводит примеры модели искусственного интеллекта в действии, например, «эпическая музыка для трейлеров с интенсивной трибальной перкуссией и духовыми» и «лофи-хип-хоп, мелодичный чил-хоп, 85 ударов в минуту». Также предлагаются примеры звуковых эффектов, созданных с помощью Stable Audio, например, речь пилота авиакомпании по внутренней связи или разговор людей в оживленном ресторане.

Для обучения своей модели Stability сотрудничает с поставщиком стоковой музыки AudioSparx и лицензировала набор данных, «состоящий из более чем 800 000 аудиофайлов, содержащих музыку, звуковые эффекты и стемы отдельных инструментов, а также соответствующие текстовые метаданные». После загрузки в модель 19 500 часов аудиофайлов Stable Audio научилась имитировать определенные звуки которые она слышала по команде, поскольку эти звуки были связаны с текстовыми описаниями этих звуков в нейронной сети.

Stable Audio состоит из нескольких частей, которые работают вместе для быстрого создания индивидуального аудио. Одна из частей уменьшает размер аудиофайла таким образом, чтобы сохранить его важные характеристики и удалить ненужные шумы. Благодаря этому система быстрее обучается и быстрее создает новые аудиофайлы. Другая часть использует текст (метаданные описания музыки и звуков), чтобы помочь сориентироваться в том, какой звук будет создан.

Для ускорения работы архитектура Stable Audio оперирует сильно упрощенным и сжатым представлением звука, что позволяет сократить время вывода (время, необходимое модели машинного обучения для генерации выходных данных после получения входных данных). По словам представителей Stability AI, Stable Audio может воспроизвести 95 секунд стереофонического звука с частотой дискретизации 44,1 кГц (часто называемой «качеством CD») менее чем за одну секунду на графическом процессоре Nvidia A100. A100 — это мощный графический процессор для центров обработки данных, предназначенный для использования в искусственном интеллекте, и он гораздо мощнее, чем обычный игровой GPU для настольных ПК.

Как уже упоминалось, Stable Audio — не первый генератор музыки, основанный на методах скрытой диффузии. В декабре прошлого года была статья о Riffusion, любительской версии Stable Diffusion для аудио, хотя по качеству получаемые генерации были далеки от образцов Stable Audio. В январе Google выпустила MusicLM, музыкальный генератор с искусственным интеллектом для аудио 24 кГц, а в августе компания Meta* выпустила набор аудиоинструментов с открытым исходным кодом (включая генератор преобразования текста в музыку) под названием AudioCraft. Теперь, с появлением стереофонического звука с частотой 44,1 кГц, Stable Diffusion расширяет возможности.

По словам представителей Stability, Stable Audio будет доступен в бесплатном варианте и в виде ежемесячного тарифного плана Pro стоимостью 12 долларов. В бесплатном варианте пользователи могут генерировать до 20 треков в месяц, каждый из которых может длиться не более 20 секунд. План Pro расширяет эти возможности, позволяя генерировать до 500 треков в месяц и делать треки длиной до 90 секунд. Ожидается, что будущие релизы Stability будут включать модели с открытым исходным кодом, основанные на архитектуре Stable Audio, а также обучающий код для тех, кто заинтересован в разработке моделей генерации звука.

На данный момент, учитывая качество звука в Stable Audio, можно сказать, что мы находимся на пороге создания музыки, генерируемой искусственным интеллектом. Будут ли счастливы музыканты, если их заменят модели ИИ? Скорее всего, нет, если судить по протестам против ИИ в области изобразительного искусства. Пока что человек может с легкостью превзойти все, что может создать ИИ, но, возможно, так будет продолжаться недолго. В любом случае, аудио, генерируемое ИИ, может стать еще одним инструментом в арсенале профессионалов.

*Meta признана экстремистcкой организацией в России.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *