Если дипфейки неподвижных изображений уже стали достаточно неплохи, то скоро нам придется столкнуться с генерируемыми с помощью Animate Anyone видеороликами любого, кто осмелится выложить в сеть свою фотографию.
Новая технология генеративного видео была разработана исследователями из Института интеллектуальных вычислений Alibaba Group. Это большой шаг вперед по сравнению с предыдущими системами преобразования изображений в видео, такими как DisCo и DreamPose, которые были впечатляющими еще летом, но теперь стали древней историей.
То, что может Animate Anyone, отнюдь не является беспрецедентным, но она прошла тот сложный промежуток между «неуклюжим академическим экспериментом» и «достаточно хорошо, если не присматриваться». Как мы все прекрасно понимаем, следующая стадия — это просто «достаточно хорошо», когда люди даже не станут присматриваться, потому что будут считать, что это реально. Именно на этом этапе находятся неподвижные изображения и текстовые беседы, разрушающие наше чувство реальности.
Модели преобразования изображений в видео, подобные этой, начинают с извлечения деталей, таких как черты лица, узоры и поза, из эталонного изображения, например модной фотографии модели в платье, выставленном на продажу. Затем создается серия изображений, на которых эти детали накладываются на слегка отличающиеся позы, которые могут быть получены с помощью захвата движения или взяты из другого видео.
Предыдущие модели показали, что это возможно сделать, но было много проблем. Галлюцинации были большой проблемой, так как модель должна придумывать правдоподобные детали, например, как рукав или волосы могут двигаться, когда человек поворачивается. Это приводит к появлению множества очень странных изображений, что делает получившееся видео далеко не убедительным. Но тем не менее возможность осталась, и Animate Anyone стала намного лучше, хотя все еще далека от совершенства.
Технические особенности новой модели недоступны большинству, но в документе подчеркивается новый промежуточный шаг, который «позволяет модели всесторонне изучить взаимосвязь с эталонным изображением в последовательном пространстве признаков, что значительно способствует улучшению сохранения деталей внешности». Благодаря улучшению сохранения основных и мелких деталей, генерируемые изображения в дальнейшем получаются более достоверными и гораздо более качественными.
Результаты работы демонстрируются в нескольких ситуациях. Модели принимают произвольные позы, не искажаясь и не теряя рисунок одежды. 2D фигурка из аниме оживает и убедительно танцует.
Они далеки от совершенства — особенно это касается глаз и рук, которые представляют особую проблему для генеративных моделей. А позы, которые лучше всего передаются, наиболее близки к оригиналу; например, если человек поворачивается, модель с трудом поспевает за ним. Но это огромный скачок по сравнению с предыдущим уровнем техники, который давал гораздо больше артефактов или полностью терял важные детали, такие как цвет волос или одежды человека.
Невольно задумываешься о том, что, имея одно ваше изображение хорошего качества, злоумышленник может заставить вас сделать практически все, что угодно, а в сочетании с лицевой анимацией и технологией захвата голоса — еще и выразить все, что угодно. На данный момент технология слишком сложна и имеет множество ошибок для широкого использования, но в мире ИИ все не так долго остается неизменным.
По крайней мере, команда пока не выкладывает код в открытый доступ. Хотя у них есть страница на GitHub, разработчики пишут: «Мы активно работаем над подготовкой демо-версии и кода к публичному выпуску. Хотя мы не можем назвать конкретную дату релиза в данный момент, пожалуйста, будьте уверены, что намерение предоставить доступ как к демо-версии, так и к нашему исходному коду твердое».