Почему человек по-прежнему ключевая фигура в создании доступного ИИ-ориентированного технологического контента

Дискуссия о необходимости человеческого надзора за работой искусственного интеллекта продолжается, на этот раз применительно к взаимосвязанным сферам транскрибирования речи, субтитрирования и автоматического распознавания речи (ASR). Здесь также звучат призывы создавать приложения, дополняющие, а не заменяющие человеческий вклад.

Субтитры играют жизненно важную роль в обеспечении доступа к медиа и информации для зрителей с нарушениями слуха, и их популярность существенно выросла за последние годы. Активисты движения за права инвалидов настаивали на улучшении субтитров уже десятилетиями, подчеркивая растущую востребованность этой услуги на фоне распространения стриминговых сервисов по запросу. Видеоплатформы также активно используют ИИ, например YouTube анонсировал тестирование новой функции ИИ для создания кратких резюме видео, а TikTok изучает возможность создания чат-бота.

Учитывая растущую популярность ИИ как панацеи от ограничений технологий, применение новейших ИИ-инструментов и сервисов для автоматического субтитрирования может показаться логичным следующим шагом.

Однако в своем недавнем докладе за 2023 год компания 3Play Media, специализирующаяся на видеодоступности и субтитрировании, сосредоточилась на влиянии генеративных ИИ-инструментов на субтитры, используемые в первую очередь зрителями с нарушениями слуха. Согласно результатам исследования, пользователям нужно учитывать гораздо больше факторов, чем просто точность, когда речь идет о новых, быстро развивающихся ИИ-сервисах.

Точность автоматического распознавания речи

В докладе 3Play Media анализировались показатели доли словесных ошибок (количество правильно распознанных слов) и доли ошибок форматирования (точность как слов, так и форматирования в распознанном файле) для различных движков ASR, или ИИ-генераторов субтитров. Эти движки ASR применяются в разных отраслях, включая новости, высшее образование и спорт.

«Высококачественное ASR необязательно приводит к высококачественным субтитрам, — говорится в докладе. — Для доли словесных ошибок даже лучшие движки показали точность около 90%, а для доли ошибок форматирования — около 80%, что недостаточно для юридического соответствия и стандарта доступности в 99%».

Американский закон о защите прав инвалидов требует от государственных органов, бизнеса и некоммерческих организаций, обслуживающих население, «эффективно общаться с людьми, имеющими проблемы с общением», включая закрытое или синхронное субтитрирование для глухих и слабослышащих. Согласно правилам Федеральной комиссии по связи США, субтитры на телевидении должны быть максимально точными, синхронизированными, непрерывными и правильно размещенными.

Точность субтитров сильно различалась в разных сегментах по данным исследования. «Новости, сетевые СМИ, кинематограф и спорт — самые сложные сферы для точного распознавания ASR, — пишет 3Play Media, — поскольку в этих сегментах часто присутствует фоновая музыка, наложение речи и сложный аудиоконтент. Эти сегменты демонстрируют самые высокие средние показатели ошибок как для доли словесных, так и для доли ошибок форматирования, причем новости и сетевые СМИ — наименее точные».

Хотя в целом показатели улучшились по сравнению с докладом 3Play Media за 2022 год, компания обнаружила, что показатели ошибок по-прежнему достаточно высоки, чтобы оправдать сотрудничество человека-редактора для всех протестированных сегментов.

Сохранение роли человека

Модели транскрибирования на всех уровнях, от потребительских до промышленных, уже годами включают автоматическое субтитрирование на основе ИИ. Многие уже используют так называемые системы «человек в цикле», где процесс в несколько этапов объединяет инструменты ИИ (или ASR) и человека-редактора. Компании вроде Rev, еще один поставщик услуг субтитрирования и транскрибирования, подчеркивали важность роли человека-редактора в синхронизации аудио и видео, форматировании текста на экране и других необходимых шагах для обеспечения полной доступности визуального контента.

Модели «человек в цикле» активно продвигаются во всей сфере генеративного ИИ для лучшего мониторинга скрытых предубеждений в моделях ИИ и направления генеративного ИИ человеческим принятием решений.

Консорциум Всемирной паутины (W3C) в своей инициативе по веб-доступности давно придерживается аналогичной позиции, отмеченной в рекомендациях по субтитрированию: «Автоматически сгенерированные субтитры не соответствуют потребностям пользователей или требованиям доступности, если их точность полностью не подтверждена. Обычно они нуждаются в значительном редактировании. Автоматические субтитры могут использоваться как стартовая точка для разработки точных субтитров и транскриптов».

А в докладе 2021 года о важности транскрибирования в режиме реального времени человеком 3Play Media отметила аналогичные опасения:

«В отличие от человека, ИИ не обладает теми же способностями к контекстуализации, что означает — когда ASR неправильно понимает слово, есть вероятность, что оно будет заменено на не относящееся к делу, или пропущено вовсе, — пишет компания. — Хотя в настоящее время не существует определенных юридических требований к точности субтитрирования в прямом эфире, действующие федеральные и местные нормы субтитрирования для записанного контента гласят, что средства обеспечения доступности должны предоставлять опыт, равный опыту слышащего зрителя… Хотя ни ИИ, ни человек-субтитровщик не могут обеспечить 100% точность, наиболее эффективные методы субтитрирования в реальном времени объединяют оба подхода, чтобы максимально приблизиться к этому показателю».

Выявление галлюцинаций ИИ

Помимо более низких показателей точности при использовании только ASR, в докладе 3Play Media отмечается прямая обеспокоенность возможностью «галлюцинаций» ИИ как в виде фактических неточностей, так и включения полностью выдуманных предложений.

В целом, галлюцинации ИИ стали центральным аспектом многочисленных претензий к тексту, сгенерированному ИИ.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *