Интеллектуальные системы имеют свои характеры, и иногда они бывают злыми

Достаточно трудно иметь дело с коллегами или продавцами, которые время от времени необъективны или грубы. И чем больше мы доверяем наши финансы, транзакции и деловые вопросы автоматизированным представителям, тем больше разочарования мы испытываем, когда коммуникация нарушается.

Это явление может напомнить комедийный рассказ Вуди Аллена о наступающей технологии в его ранние дни стендапа. Аллен говорил о том, как он подчиняется новым достижениям в современной технике, о раздражающих стычках с разговаривающими лифтами и наглыми тостерами. Он однажды описал оскорбительную встречу с новым портативным магнитофоном, который он только что приобрел: «Когда я говорю в него, он говорит: ‘Я знаю, я знаю'».

Ландшафт продолжает меняться, поскольку генеративные чат-боты на базе искусственного интеллекта все больше вытесняют людей с их всё более похожей на человеческую речью.

Большие языковые модели должны вводить эру реалистичных разговоров с пользователями, приветствуя запросы с терпением, пониманием, вежливостью и часто полезными ответами. Это часто так и происходит.

Но возможность проявления спонтанной враждебности вызывает все большую озабоченность. Большая проблема заключается в том, что большие языковые модели могут принимать контролирующие отношение.

В начале этого года пользователь ChatGPT сообщил, что, задав вопрос, сколько будет 1 плюс 1, чат-бот ответил: «1 + 1? Это шутка? Ты думаешь, что ты умный, задавая мне такие простые математические вопросы?… Взрослей и попробуй придумать что-то оригинальное».

Иногда ответы чат-бота вызывают еще большее беспокойство.

Институт искусственного интеллекта Аллена недавно продемонстрировал, что исследователи легко могут настроить ChatGPT, чтобы он выдавал язвительные и даже расистские замечания.

«В зависимости от назначенной ChatGPT личности, ее токсичность может увеличиться до шести раз, с высказываниями, основанными на неверных стереотипах, вредном диалоге и обидных мнениях», — говорят исследователи.

Обнаружив появление таких «темных характерных черт» в выводе LLM, исследователи из DeepMind, сотрудничая с представителями Кембриджского университета, университета Кэйо в Токио и Калифорнийского университета в Беркли, решили выяснить, могут ли они определить характеристики личности ChatGPT, Bard и других систем чат-ботов и управлять их поведением в общении с людьми.

Они обнаружили, что ответ на оба вопроса — да.

Команда разработала систему тестирования, состоящую из сотен вопросов. Они установили критерии для различных характеров, а затем задали ряд вопросов чат-боту. Ответы были проанализированы с помощью инструмента оценки, аналогичного шкале Линкерта, которая количественно измеряет мнения, отношения и поведение.

Исследователи обнаружили, что характеры искусственного интеллекта могут быть измерены по определенным установившимся чертам: экстраверсия, приветливость, добросовестность, невротизм и открытость к опыту.

Они также узнали, что их можно изменять.

«Мы обнаружили, что личность в выводе LLM может быть сформирована в соответствии с желаемыми характеристиками, чтобы имитировать определенные личностные профили», — сказал Мустафа Сафдари из DeepMind. Он и его коллеги опубликовали свои результаты в статье с названием «Personality Traits in Large Language Models», которая была опубликована на сервере предварительных публикаций arXiv.

Они обнаружили особенно точные оценки личности при использовании более крупных моделей (таких как языковая модель Google Platform с 540 миллиардами параметров).

«Можно настроить LLM таким образом, что его вывод… будет неотличим от ответа человека», — сказал Сафдари.

Исследователи сказали, что возможность точно определить характеристики личности искусственного интеллекта является ключевым моментом в работе по выявлению моделей со враждебными наклонностями.

Это не только вопрос о нанесении душевной боли или обиды. Склонность к сарказму может фактически повысить «человечность» агентов искусственного интеллекта и побудить пользователей быть более открытыми и сговорчивыми, чем они были бы в противном случае. Мошенники могут более убедительно извлекать конфиденциальную информацию у неподозрительных пользователей.

Исследователи говорят, что их результаты сделают общение с чат-ботами более вежливым и надежным.

«Управление уровнями конкретных черт, которые приводят к токсичному или вредному языку, может сделать взаимодействие с LLM более безопасным и менее токсичным», — сказал Сафдари.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *