Последние достижения в области генеративного искусственного интеллекта послужили толчком к развитию реалистичного синтеза речи. Хотя эта технология способна улучшить жизнь благодаря персонализированным голосовым помощникам и средствам коммуникации, она также привела к появлению дипфейков, с помощью которых синтезированная речь может быть использована для обмана людей и машин в злонамеренных целях.
В ответ на эту угрозу Нинг Чжан, доцент кафедры информатики и инженерии Школы Маккелви при Вашингтонском университете в Сент-Луисе, разработал инструмент AntiFake — новый защитный механизм, призванный предотвратить несанкционированный синтез речи еще до того, как он произойдет. Чжан представил AntiFake 27 ноября на конференции Ассоциации вычислительной техники по компьютерной и коммуникационной безопасности в Копенгагене, Дания.
В отличие от традиционных методов обнаружения дипфейков, которые используются для оценки и выявления синтезированной речи в качестве средства защиты после атаки, AntiFake занимает проактивную позицию. Он использует состязательные методы для предотвращения синтеза фальшивой речи, затрудняя инструментам искусственного интеллекта считывание необходимых характеристик с голосовых записей. Код находится в свободном доступе для пользователей.
«AntiFake гарантирует, что когда мы выкладываем голосовые данные, злоумышленникам будет сложно использовать эту информацию для синтеза наших голосов и выдачи себя за нас», — сказал Чжан. «Инструмент использует технику состязательного ИИ, которая изначально была частью инструментария киберпреступников, но теперь мы используем ее для защиты от них. Мы немного портим записанный аудиосигнал, искажаем или возмущаем его настолько, что он по-прежнему звучит правильно для человека, но для искусственного интеллекта это совершенно не так».
Чтобы гарантировать, что AntiFake сможет противостоять постоянно меняющемуся ландшафту потенциальных злоумышленников и неизвестных моделей синтеза, Чжан и первый автор Чжиюань Ю, аспирант лаборатории Чжана, создали обобщенный инструмент и протестировали его на пяти самых современных синтезаторах речи. AntiFake показал уровень защиты более 95% даже от неизвестных коммерческих речевых генераторов. Также было проведено тестирование удобства использования AntiFake с участием 24 человек, что подтвердило доступность инструмента для различных групп населения.
В настоящее время AntiFake может защищать короткие фрагменты речи, что позволяет бороться с наиболее распространенным видом подделки голоса. Однако, по словам Чжана, ничто не мешает расширить возможности этого инструмента для защиты более длинных записей и даже музыки в рамках постоянной борьбы с дезинформацией.
«В конечном итоге мы хотим иметь возможность полностью защищать голосовые записи», — сказал Чжан. «Хотя я не знаю, что будет дальше в области голосовых технологий ИИ — постоянно разрабатываются новые инструменты и функции, — я думаю, что наша стратегия, направленная на то, чтобы обратить методы противника против него самого, будет оставаться эффективной. ИИ остается по-прежнему уязвим для состязательных атак, хотя, возможно, придется изменить специфику разработки, чтобы сохранить эту стратегию в качестве выигрышной».