Meta* выпускает набор данных FACET для проверки моделей компьютерного зрения на предвзятость

Продолжая свою открытую инициативу, Meta* сегодня выпустила новый ИИ бенчмарк FACET, предназначенный для оценки «справедливости» моделей ИИ, которые классифицируют и обнаруживают объекты на фотографиях и видео, включая людей.

Состоящий из 32 000 изображений, содержащих 50 000 человек, помеченных людьми-аннотаторами, FACET — искаженное сокращение от «Fairness in Computer Vision EvaluaTion» (Справедливость в оценке компьютерного зрения) — учитывает классы, связанные с профессиями и видами деятельности, такими как «баскетболист», «диджей» и «врач», а также демографические и физические характеристики, что позволяет проводить то, что Meta* описывает как «глубокую» оценку предубеждений против этих классов.

«Выпуская FACET, наша цель — дать возможность исследователям и практикам проводить аналогичное тестирование, чтобы лучше понять различия, присутствующие в их собственных моделях, и отслеживать влияние смягчающих мер, предпринятых для решения проблем справедливости», — написала Meta* в блог-посте. «Мы призываем исследователей использовать FACET для сравнения справедливости в других видах и мультимодальных задачах».

Конечно, бенчмарки для выявления предубеждений в алгоритмах компьютерного зрения — не новость. Сама Meta* несколько лет назад выпустила один из них, чтобы выявить дискриминацию по возрасту, полу и цвету кожи как в моделях компьютерного зрения, так и в моделях машинного обучения аудио. И было проведено несколько исследований моделей компьютерного зрения, чтобы определить, проявляют ли они предубеждения против определенных демографических групп.

Также есть тот факт, что у самой Meta* не лучший показатель в области ответственного ИИ.

В конце прошлого года Meta* была вынуждена отозвать демо-версию ИИ после того, как она написала расистскую и неточную научную статью. В отчетах команда Meta* по этике ИИ охарактеризована в основном как бессильная, а инструменты по борьбе с предубеждениями ИИ, выпущенные ею, как «совершенно недостаточные». Тем временем, ученые обвинили Meta* в усугублении социально-экономического неравенства в алгоритмах показа рекламы и в проявлении предубеждений против чернокожих пользователей в своих системах автоматизированной модерации.

Но Meta* утверждает, что FACET более тщателен, чем любые другие бенчмарки предубеждений в компьютерном зрении, созданные ранее, — способный ответить на такие вопросы, как «Лучше ли модели классифицируют людей как скейтбордистов, когда их воспринимаемое гендерное представление имеет более стереотипно мужские атрибуты?» и «Усиливаются ли какие-либо предубеждения, когда у человека кудрявые волосы по сравнению с прямыми?»

Чтобы создать FACET, Meta* попросила вышеупомянутых аннотаторов пометить каждое из 32 000 изображений демографическими атрибутами (например, воспринимаемое гендерное представление изображенного человека и возрастная группа), дополнительными физическими атрибутами (например, цвет кожи, освещение, татуировки, головные уборы и очки, прическа и растительность на лице и т. д.) и классами. Они объединили эти метки с другими метками для людей, волос и одежды, взятыми из набора данных Segment Anything 1 Billion, разработанного Meta* для обучения моделей компьютерного зрения для выделения объектов и животных из изображений.

Изображения в FACET были взяты из набора данных Segment Anything 1 Billion, как сообщает Meta*, которые, в свою очередь, были куплены у «поставщика фотографий». Но неясно, были ли проинформированы люди, изображенные на них, что фотографии будут использованы для этой цели. И — по крайней мере в блог-посте — не ясно, как Meta* набрала команды аннотаторов и какую зарплату они получали.

Исторически многие аннотаторы, нанятые для разметки наборов данных для обучения ИИ и бенчмаркинга, приходят из развивающихся стран и имеют доходы намного ниже минимальной заработной платы в США. Буквально на этой неделе The Washington Post сообщила, что Scale AI, одна из крупнейших и лучше всего финансируемых аннотационных фирм, платила работникам по крайне низким ставкам, регулярно задерживала или удерживала платежи и предоставляла немного каналов для того, чтобы работники могли добиться возмещения.

В официальном документе, описывающем создание FACET, Meta* говорит, что аннотаторы были «обученными экспертами», набранными из «нескольких географических регионов», включая Северную Америку (США), Латинскую Америку (Колумбия), Ближний Восток (Египет), Африку (Кения), Юго-Восточную Азию (Филиппины) и Восточную Азию (Тайвань). Meta* использовала «собственную аннотационную платформу» от стороннего поставщика, говорится в нем, а аннотаторы получали вознаграждение «почасовой ставки, установленной для страны».

Отвлекаясь от потенциально проблемного происхождения FACET, Meta* говорит, что этот бенчмарк может использоваться для проверки моделей классификации, обнаружения, «сегментации экземпляров» и «визуального обоснования» по различным демографическим атрибутам.

В качестве тестового случая Meta* применила FACET к собственному алгоритму компьютерного зрения DINOv2, который на этой неделе стал доступен для коммерческого использования. FACET обнаружил несколько предубеждений в DINOv2, говорит Meta*, включая предубеждение против людей с определенным полом и склонность стереотипно идентифицировать изображения женщин как «медсестер».

«Подготовка обучающего набора данных DINOv2, возможно, могла непреднамеренно воспроизвести предвзятость эталонных наборов данных, выбранных для составления», — написала Meta* в блог-посте. «Мы планируем устранить эти потенциальные недостатки в будущей работе и считаем, что отбор изображений также может помочь избежать переноса потенциальных предубеждений, возникающих при использовании поисковых систем или текстового контроля».

Ни один бенчмарк не идеален. И Meta*, к своей чести, признает, что FACET может недостаточно учитывать реальные мировые концепции и демографические группы. Она также отмечает, что многие изображения профессий в наборе данных, возможно, изменились с тех пор, как был создан FACET. Например, большинство врачей и медсестер в FACET, сфотографированных во время пандемии COVID-19, носят больше средств индивидуальной защиты, чем до кризиса.

«В настоящее время мы не планируем обновлять этот набор данных», — пишет Meta* в официальном документе. «Мы позволим пользователям помечать любые изображения, которые могут быть нежелательным контентом, и удалять нежелательный контент, если он будет найден».

В дополнение к самому набору данных Meta* сделала доступным веб-инструмент для просмотра набора данных. Чтобы использовать его и набор данных, разработчики должны согласиться не обучать модели компьютерного зрения на FACET — только оценивать, тестировать и сравнивать их.

*Meta признана экстремистcкой организацией в России.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *