Проект «Гутенберг» бесплатно выложил в Интернет 5 000 аудиокниг, используя синтетическую речь

Открытое книгохранилище Project Gutenberg практически за одну ночь превратило тысячи своих изданий в аудиокниги с использованием синтетической речи, которые теперь доступны для скачивания или потокового воспроизведения на различных сервисах. Выборка несколько своеобразна, как, впрочем, и весь архив в целом, но, тем не менее, она является мощной демонстрацией доступности литературы.

Создание аудиокниги с помощью традиционного дикторского текста, естественно, занимает довольно много времени даже в самом лучшем случае, и, конечно, чтецу нужно заплатить за его время, а еще есть вопрос редактирования и публикации. Для многих изданий выпускать аудиокнигу не имеет финансового смысла, поэтому многие старые и малоизвестные издания остаются недоступными для тех, кто предпочитает такой формат.

Проект «Гутенберг», конечно же, стремится распространять литературу, являющуюся общественным достоянием, в как можно большем количестве форматов, и восполнение этого пробела, вероятно, уже много лет находится в их списке дел. Но только объединившись с Массачусетским технологическим институтом и компанией Microsoft, они смогли совершить ту магию кода, которая необходима для использования речи, генерируемой искусственным интеллектом, чтобы оживить эти книги.

Проблема архива PG, каким бы ценным он ни был, заключается в том, что файлы не имеют единообразного форматирования. Они поступают из различных источников, часто с ошибками в процессах оптического распознавания символов, и часто несовершенно отредактированы и исправлены добровольцами. Даже если бы они были безупречны, из этого не следует, что их формат легко читался бы машиной: в итоге получалось бы повествование с номерами страниц, сносками и прочей эфемерой.

«Каждая из электронных книг в Project Gutenberg имеет свой собственный уникальный формат HTML с большим количеством текста, который вы не хотели бы слышать, при прочтении вслух: таблицы, оглавления, индексы, номера страниц и т.д.». Самой сложной частью проекта было извлечение хорошего текста для чтения вслух», — пояснил соруководитель проекта Марк Гамильтон, сотрудник Microsoft и MIT.

Для решения этой проблемы была разработана система, которая прорабатывала архив и выявляла файлы книг, имеющие схожий формат, а затем определяла, какие из этих кластеров лучше всего подходят для автоматического чтения.

Первая партия, будучи несколько ограниченной в выборе, несколько своеобразна: например, в ней есть только одна книга Диккенса (незаконченный «Эдвин Друд»), но зато дюжина томов из серии «Заметки и запросы, номер 176, 12 марта 1853 г. Средство межличностного общения для литераторов, художников, антикваров, специалистов по генеалогии и т.д.».

«Мы отобрали книги для первой партии, основываясь на том, что, по нашему мнению, автоматический парсер может сделать достаточно хорошо», — продолжает Гамильтон. «Тем не менее, некоторые ключевые, хорошие книги оказались не у дел. Теперь, когда мы выпустили первую партию, мы работаем над тем, чтобы обобщить систему и приблизиться к полному количеству книг (60 тыс.) в будущем выпуске».

Что касается самого повествования, то команда собрала воедино множество инструментов машинного обучения и синтетической речи, которые за последние несколько лет усовершенствовались и стали более доступными. Еще несколько лет назад было очевидно, что автоматизированное производство аудиокниг скоро появится, и вот оно появилось — причем в больших масштабах.

Вот как в статье, посвященной этому проекту, описывается их подход к созданию увлекательной аудиокниги:

Для создания эмоционального прочтения текста мы используем автоматическую систему распознавания диктора и эмоций, которая динамически изменяет голос и тон чтения в зависимости от контекста. Это позволяет сделать отрывки с несколькими персонажами и эмоциональными диалогами более реалистичными и увлекательными. Для этого мы сначала разделяем текст на повествование и диалог и определяем диктора для каждого раздела диалога. Затем мы прогнозируем эмоции каждого диалога. Наконец, мы присваиваем отдельные голоса и эмоции дикторам и диалогам персонажей, используя многостилевую и контекстную нейронную модель преобразования текста в речь.

Первые 5 тыс. книг доступны для бесплатного прослушивания на Spotify, Apple Podcasts и в Internet Archive, а код, использованный для их создания, документируется на GitHub.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *