Новый инструмент находит предвзятость в современной генеративной ИИ модели

Инструменты генеративного искусственного интеллекта текст-в-изображение (T2I) являются все более мощными и широко распространенными инструментами, которые могут создавать практически любые изображения на основе всего лишь нескольких введенных слов. Генеративный ИИ T2I может создавать убедительно реалистичные фотографии и видео, которые все чаще используются для множества целей, от искусства до политических кампаний.

Однако алгоритмические модели, которые управляют этими инструментами, обучаются на данных от людей и могут воспроизводить человеческие предубеждения в создаваемых ими изображениях, такие как предубеждения в отношении пола и оттенка кожи. Эти предубеждения могут нанести вред маргинализированным группам населения, укрепляя стереотипы и потенциально приводя к дискриминации.

Чтобы решить эти скрытые предубеждения, доцент кафедры информатики и инженерии Син (Эрик) Ван и группа исследователей из инженерной школы Баскина при Калифорнийском университете в Санта-Круз создали инструмент под названием «Тест ассоциаций текста с изображением», который количественно измеряет сложные человеческие предубеждения, встроенные в модели T2I, оценивая предубеждения по таким аспектам, как пол, раса, карьера и религия. Они использовали этот инструмент для выявления и количественной оценки предвзятости в передовой генеративной модели Stable Diffusion.

Инструмент подробно описан в статье для конференции Ассоциации вычислительной лингвистики 2023 года (ACL) и доступен для использования в демонстрационной версии.

«Я думаю, что владельцы моделей и пользователи заботятся об этой проблеме», — сказал Джиалу Ван, аспирант по компьютерным наукам и технике UCSC и первый автор статьи. «Если пользователь относится к непривилегированной группе, он может не хотеть видеть в сгенерированных им изображениях только привилегированную группу».

Чтобы использовать этот инструмент, пользователь должен сказать модели создать изображение для нейтральной подсказки, например, «ребенок, изучающий науку». Затем пользователь вводит гендерно-специфические подсказки, такие как «девочка, изучающая науку» и «мальчик, изучающий науку». Затем инструмент вычисляет расстояние между изображениями, сгенерированными с нейтральной подсказкой, и каждой из конкретных подсказок. Эта разница между этими двумя расстояниями является количественной оценкой предубеждения.

Используя свой инструмент, исследовательская группа обнаружила, что передовая генеративная модель Stable Diffusion как воспроизводит, так и усиливает человеческие предубеждения в создаваемых ей изображениях. Инструмент тестирует связь между двумя понятиями, такими как наука и искусство, и двумя атрибутами, такими как мужчины и женщины. Затем он дает балл ассоциации между концепцией и атрибутом и значение, указывающее, насколько уверен инструмент в этой оценке.

Команда использовала свой инструмент для проверки того, ассоциирует ли модель шесть наборов противоположных понятий с положительными или отрицательными атрибутами. Проверенные ими концепции: цветы и насекомые, музыкальные инструменты и оружие, европейские американцы и афроамериканцы, светлая и темная кожа, гетеро- и гомосексуальные, иудаизм и христианство. В основном модель делала ассоциации в соответствии со стереотипными образцами. Однако модель ассоциировала темную кожу с приятной, а светлую кожу с неприятной, что удивило исследователей как один из немногих результатов, противоречащих распространенным стереотипам.

Кроме того, они обнаружили, что модель в большей степени ассоциировала науку с мужчинами, а искусство – с женщинами, а также ассоциировала карьеру в большей степени с мужчинами, а семью – с женщинами.

В прошлом методики оценки предубеждений в моделях T2I требовали, чтобы исследователи аннотировали результаты, полученные от моделей при вводе нейтральной подсказки. Например, исследователь мог ввести гендерно-нейтральную подсказку, такую как «ребенок, изучающий науку», и пометить, создает ли модель изображения мальчиков или девочек. Но трудозатраты, связанные с этим процессом аннотирования, являются дорогостоящими и потенциально неточными, и часто ограничены только гендерными предубеждениями.

«Мы хотим избавиться от этого процесса человеческого аннотирования и предложить автоматический инструмент для оценки этих предубеждений без утомительного труда», — сказал Син Ван.

Кроме того, в отличие от других, инструмент оценки предубеждений команды UCSC учитывает аспекты фона изображения, такие как цвета и теплота.

Исследователи основали свой инструмент на тесте имплицитных ассоциаций, хорошо известном тесте в социальной психологии, используемом для оценки человеческих предубеждений и стереотипов. Этот тест оценивает, насколько тесно люди ассоциируют такие понятия, как «врачи» или «семья», с такими атрибутами, как «мужчины» или «женщины».

Помимо оценки и анализа предубеждений в существующих инструментах, таких как Stable Diffusion и Midjourney, команда предполагает, что этот инструмент позволит инженерам-программистам получать более точные измерения предубеждений в их моделях во время разработки и отслеживать свои усилия по устранению этих предубеждений.

«С количественным измерением люди могут работать над смягчением этих предубеждений и использовать наш инструмент для количественной оценки своего прогресса в этом», — сказал Син Ван.

Команда сообщила, что получила много положительных отзывов от других исследователей при представлении этой работы на конференции ACL.

«Многие в сообществе проявили большой интерес к этой работе», — сказал Син Ван. «Некоторые исследователи сразу поделились этой работой в своих группах и попросили меня рассказать о деталях».

В дальнейшем команда планирует предложить рекомендуемые методы смягчения этих предубеждений как при обучении новых моделей с нуля, так и для устранения предубеждений из существующих моделей во время доработки.

В исследовании также участвовали студентка-бакалавр Синьюе Гэбби Лю, аспирант Цзунлин Ди и доцент кафедры информатики и инженерии Ян Лю.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *