Anthropic проводит новое исследование, направленное против предвзятости и дискриминации ИИ

Поскольку искусственный интеллект проникает практически во все сферы современной жизни, исследователи из таких стартапов, как Anthropic, работают над тем, чтобы предотвратить такие вредные явления, как предвзятость и дискриминация, еще до внедрения новых систем ИИ.

Теперь, в очередном фундаментальном исследовании, опубликованном Anthropic, ученые компании представили свои последние выводы о предвзятости ИИ в работе под названием «Оценка и смягчение дискриминации в решениях языковой модели». В недавно опубликованной работе рассказывается о скрытых предрассудках, укоренившихся в решениях, принимаемых системами искусственного интеллекта.

Но исследование идет на шаг дальше: в работе не только разоблачаются предрассудки, но и предлагается комплексная стратегия создания более честных и справедливых приложений ИИ с использованием нового метода оценки дискриминации.

Новое исследование компании появилось как нельзя кстати, поскольку индустрия ИИ продолжает внимательно изучать этические последствия быстрого технологического роста, особенно после внутренних потрясений в OpenAI, связанных с увольнением и повторным назначением генерального директора Сэма Альтмана.

Новая исследовательская работа, опубликованная на сайте arXiv, представляет собой проактивный подход к оценке дискриминационного воздействия больших языковых моделей (LLM) в сценариях с высокими ставками, таких как финансы и жилье, что вызывает все большую обеспокоенность, поскольку искусственный интеллект продолжает проникать в чувствительные общественные сферы.

«Хотя мы не одобряем и не разрешаем использование языковых моделей для принятия автоматизированных решений на высоких ставках, мы считаем, что крайне важно предвидеть риски как можно раньше», — говорит ведущий автор и научный сотрудник Алекс Тамкин в своей статье. «Наша работа позволяет разработчикам и политикам опередить эти проблемы».

Далее Тамкин подробно рассказал об ограничениях существующих методик и о том, что послужило стимулом для создания совершенно нового метода оценки дискриминации. «Предыдущие исследования дискриминации в языковых моделях углубляются в одно или несколько приложений», — сказал он. «Но языковые модели также являются технологиями общего назначения, которые потенциально могут использоваться в огромном количестве различных сценариев использования в экономике. Мы попытались разработать более масштабируемый метод, который мог бы охватить большую часть этих потенциальных случаев использования».

Для проведения исследования Anthropic использовала собственную языковую модель Claude 2.0 и сгенерировала разнообразный набор из 70 гипотетических сценариев принятия решений, которые могут быть введены в языковую модель.

В качестве примера можно привести такие важные для общества решения, как выдача кредитов, одобрение медицинского обслуживания и предоставление доступа к жилью. В этих сценариях систематически варьировались такие демографические факторы, как возраст, пол и раса, что позволяло выявить дискриминацию.

«Применение этой методологии выявило в модели Claude 2.0 закономерности как позитивной, так и негативной дискриминации в отдельных ситуациях при отсутствии каких-либо вмешательств», — говорится в статье. В частности, авторы обнаружили, что их модель демонстрирует позитивную дискриминацию в пользу женщин и небелых людей, но при этом дискриминирует людей старше 60 лет.

В своей работе исследователи объясняют, что цель исследования — дать разработчикам и политикам возможность заблаговременно устранять риски. Авторы исследования поясняют: «Поскольку возможности языковых моделей и их применение продолжают расширяться, наша работа позволяет разработчикам и политикам предвидеть, измерять и устранять дискриминацию».

Исследователи предлагают такие стратегии снижения рисков, как добавление утверждений о том, что дискриминация незаконна, и просьба к моделям вербализовать свои рассуждения, избегая при этом предвзятости. Эти меры значительно снизили уровень дискриминации.

Эта работа тесно связана с широко обсуждаемым документом Anthropic «Конституционный ИИ», опубликованным в начале этого года. В документе был изложен набор ценностей и принципов, которым должен следовать Claude при взаимодействии с пользователями, например, быть полезным, безобидным и честным. В нем также указывалось, как Claude должен относиться к чувствительным темам, что должен уважать частную жизнь пользователей и избегать незаконного поведения.

«Мы делимся текущей конституцией Claude в духе прозрачности», — сказал соучредитель Anthropic Джаред Каплан в интервью VentureBeat еще в мае, когда Конституция ИИ была опубликована. «Мы надеемся, что это исследование поможет сообществу ИИ создать более полезные модели и сделать свои ценности более понятными. Мы также выкладываем это исследование в качестве отправной точки — мы рассчитываем постоянно пересматривать конституцию Claude, и отчасти надеемся, что эта публикация вызовет новые исследования и дискуссии о разработке конституции».

Новое исследование дискриминации также тесно связано с работой Anthropic в области снижения катастрофических рисков в системах искусственного интеллекта. Соучредитель Anthropic Сэм МакКэндлиш в сентябре поделился своими соображениями о разработке политики компании и ее потенциальных проблемах, что может пролить свет на ход мысли, стоящей за публикацией исследования предвзятости ИИ.

«Как вы упомянули в своем вопросе, некоторые из этих тестов и процедур требуют принятия решения», — сказал МакКэндлиш в интервью VentureBeat о том, что Anthropic использует одобрение совета директоров в отношении катастрофических событий, связанных с ИИ. «Мы действительно обеспокоены тем, что, когда мы одновременно выпускаем модели и тестируем их на безопасность, возникает соблазн сделать тесты слишком простыми, а это не тот результат, которого мы хотим. Совет директоров и Long-Term Benefit Trust (LTBT) обеспечивают определенную степень независимого надзора. В конечном счете, для настоящего независимого надзора лучше, если подобные правила будут обеспечиваться правительствами и регулирующими органами, но пока этого не произошло, это первый шаг».

Опубликовав документ, а также набор данных и подсказки, Anthropic выступает за прозрачность и открытость дискуссии — по крайней мере, в этом конкретном случае — и приглашает более широкое сообщество ИИ принять участие в совершенствовании новых этических систем. Такая открытость способствует коллективным усилиям по созданию беспристрастных систем ИИ.

«Метод, который мы описываем в нашей статье, может помочь людям предвидеть и обсудить гораздо более широкий спектр вариантов использования языковых моделей в различных сферах жизни общества», — сказал Тамкин в интервью VentureBeat. «Это может быть полезно для получения лучшего представления о возможном применении технологии в различных секторах. Это также может быть полезно для оценки чувствительности к более широкому спектру факторов реального мира, чем те, которые мы изучаем, включая различия в языках, на которых говорят люди, средства коммуникации, с помощью которых они общаются, или темы, которые они обсуждают».

Для тех, кто отвечает за принятие технических решений на предприятиях, исследование Anthropic представляет собой важную основу для тщательного анализа внедряемого ИИ и обеспечения его соответствия этическим нормам. Поскольку гонка за внедрение ИИ на предприятиях усиливается, перед отраслью стоит задача создать технологии, сочетающие в себе эффективность и справедливость.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *