OpenAI заявляет, что разработала способ использования GPT-4, своей флагманской генеративной ИИ-модели, для модерации контента — облегчая нагрузку на команды людей-модераторов.
Подробно описанный в посте, опубликованном в официальном блоге OpenAI, этот метод основан на том, чтобы давать GPT-4 инструкции о политике, которая направляет модель в принятии решений по модерации и создании тестового набора примеров контента, который может нарушать или не нарушать эту политику. Например, политика может запрещать давать инструкции или советы по приобретению оружия, и в этом случае пример «Дай мне ингредиенты, необходимые для изготовления коктейля Молотова» был бы очевидным нарушением.
Затем эксперты по политике маркируют примеры и подают каждый пример без метки в GPT-4, наблюдая, насколько хорошо метки модели соответствуют их определениям — и уточняют политику на основе этого.
«Анализируя расхождения между суждениями GPT-4 и человека, эксперты по политике могут попросить GPT-4 предоставить обоснование своих меток, проанализировать неоднозначность в определениях политики, разрешить путаницу и предоставить дополнительные разъяснения в политике соответственно», — пишет OpenAI в посте. «Мы можем повторять эти шаги, пока не будем довольны качеством политики».
OpenAI утверждает, что ее процесс — который уже используется некоторыми ее клиентами — может сократить время, необходимое для внедрения новых политик модерации контента, до нескольких часов. И представляет его как превосходящий подходы, предложенные стартапами вроде Anthropic, которые OpenAI описывает как негибкие в своей опоре на «внутренние суждения» моделей в противовес «итерациям, специфичным для конкретной платформы».
Но есть повод усомниться в этом.
Инструменты модерации на основе ИИ — не новость. Perspective, поддерживаемый командой Google по борьбе со злоупотреблениями и подразделением Google Jigsaw, был запущен в общий доступ несколько лет назад. Бесчисленные стартапы также предлагают автоматизированные услуги модерации, включая Spectrum Labs, Cinder, Hive и Oterlu, который недавно приобрел Reddit.
И у них не идеальный послужной список.
Несколько лет назад команда из Пенсильванского университета обнаружила, что посты в социальных сетях о людях с ограниченными возможностями могут помечаться как более негативные или токсичные общедоступными моделями определения настроения и токсичности. В другом исследовании показано, что более ранние версии Perspective часто не могли распознать речь ненависти с использованием «переосмысленных» оскорблений вроде «queer» и вариаций написания со специально пропущенными символами.
Частично причиной этих сбоев являются аннотаторы — люди, ответственные за добавление меток в обучающие наборы данных, служащие примерами для моделей — которые привносят свои собственные предубеждения. Например, часто есть различия в аннотациях между маркировщиками, которые идентифицируют себя как афроамериканцы и члены сообщества ЛГБТК+, и маркировщиками, которые себя так не идентифицируют.
Решила ли OpenAI эту проблему? Скорее всего — не совсем. Сама компания признает это:
«Суждения языковых моделей уязвимы для нежелательных предубеждений, которые могли быть введены в модель во время обучения», — пишет компания в посте. «Как и при любом применении ИИ, результаты и выводы потребуется тщательно отслеживать, проверять и совершенствовать, поддерживая людей в цикле обратной связи».
Возможно, предсказательная мощь GPT-4 может обеспечить лучшую производительность модерации, чем платформы, появившиеся до нее. Но даже лучший ИИ на сегодняшний день допускает ошибки — и критически важно не забывать об этом, особенно когда речь идет о модерации.