Новая модель искусственного интеллекта от исследователей Polytechnic Institute of New York University позволяет изменять возраст лиц на изображениях, сохраняя при этом их уникальные идентифицирующие особенности. Это значительный шаг вперед по сравнению со стандартными моделями ИИ, которые могут визуально состарить или омолодить человека, но не сохраняют его индивидуальные биометрические идентификаторы.
В статье, опубликованной на сервере препринтов arXiv и которая будет представлена на конференции IEEE International Joint Conference on Biometrics (IJCB), Судипта Банерджи, первый автор статьи и научный сотрудник факультета компьютерных наук и технологий, и его коллеги обучили один из видов генеративных моделей ИИ — модель латентной диффузии — выполнять преобразование возраста с сохранением идентичности.
Для этого Банерджи, работая с аспирантом Говиндом Митталом и выпускником аспирантуры Амеей Джоши под руководством Чинмаи Хегде, доцента факультета, и Насира Мемона, профессора факультета, преодолели типичную проблему в этой области — сбор большого набора обучающих данных, состоящих из изображений одних и тех же людей на протяжении многих лет.
Вместо этого команда обучила модель небольшим набором изображений одного человека в сочетании с отдельным набором изображений с подписями, указывающими возрастную категорию изображенного на них человека: ребенок, подросток, молодой взрослый, средний возраст, пожилой или старый. Этот набор включал фотографии знаменитостей, сделанные на протяжении их жизни.
Модель извлекла биометрические характеристики, идентифицирующие личность из первого набора. Изображения с подписями возрастных категорий научили модель связи между изображениями и возрастом. Обученная модель затем могла использоваться для имитации процесса старения или омоложения путем указания целевого возраста с помощью текстовой подсказки.
Исследователи применили метод под названием «DreamBooth» для редактирования изображений человеческих лиц путем их постепенного изменения с использованием комбинации компонентов нейронной сети. Метод заключается в добавлении и удалении шума – случайных вариаций или искажений – к изображениям с учетом базового распределения данных.
Этот подход использует текстовые подсказки и метки классов для направления процесса генерации изображений, сосредотачиваясь на сохранении деталей, специфичных для конкретной личности, и общего качества изображения. Различные функции потерь используются для точной настройки модели нейронной сети, а эффективность метода демонстрируется в экспериментах по генерации изображений человеческих лиц с возрастными изменениями и контекстуальными вариациями.
Исследователи протестировали свой метод в сравнении с другими существующими методами модификации возраста, попросив 26 добровольцев сопоставить сгенерированное изображение с реальным изображением того же человека, а также с помощью ArcFace, алгоритма распознавания лиц. Они обнаружили, что их метод превосходит другие методы, снижая частоту неправильных отклонений на 44%.