Большие нейронные сети, форма искусственного интеллекта, могут генерировать тысячи шуток вроде «Почему курица перешла дорогу?» Но понимают ли они, почему они смешные?
Используя сотни работ из конкурса подписей к картинкам «Cartoon Caption Contest» журнала New Yorker в качестве тестовой площадки, исследователи поставили перед моделями искусственного интеллекта и людьми три задачи: сопоставление шутки с картинкой; определение лучшей подписи; и объяснение, почему лучшая подпись смешная.
Во всех задачах люди продемонстрировали значительно лучшие результаты, чем машины, даже при том, что развитие искусственного интеллекта, такого как ChatGPT, сократило разрыв в производительности. Так что, машины начинают «понимать» юмор? Вкратце, они делают некоторый прогресс, но еще не достигли этого.
«Способ, которым люди проверяют понимание моделей искусственного интеллекта, заключается в создании для них тестов — тестов с выбором из нескольких вариантов или других оценок с точностью», — сказал Джек Хессель, доктор философии, научный сотрудник Института искусственного интеллекта Аллена (AI2). «И если модель в конечном итоге превосходит результаты, которые получают люди на этом тесте, вы задаетесь вопросом: ‘Хорошо, значит ли это, что она действительно понимает?’ Можно сказать, что ни одна машина не может действительно ‘понимать’, потому что понимание — это человеческая вещь. Но, независимо от того, понимает ли машина или нет, все равно впечатляет, насколько хорошо они справляются с этими задачами».
Хессель является главным автором статьи «Смеются ли андроиды над электрическими овцами? Критерии ‘понимания’ юмора на основе конкурса подписей к картинкам журнала New Yorker», которая получила премию за лучшую статью на 61-й ежегодной встрече Ассоциации вычислительной лингвистики, проходившей с 9 по 14 июля в Торонто.
Лилиан Ли, профессор Чарльз Рой Дэвис из Корнельского колледжа вычислительных и информационных наук имени Энн С. Бауэрс, и Йеджин Чой, доктор философии, профессор Школы компьютерных наук и инженерии имени Пола Г. Аллена в Университете Вашингтона и старший директор по исследованиям интеллекта на основе здравого смысла в AI2, также являются соавторами статьи.
Для своего исследования исследователи собрали данные за 14 лет конкурса подписей к картинкам журнала New Yorker — более 700 в общей сложности. Каждый конкурс включал: картинку без подписи; записи на этой неделе; три финалиста, выбранных редакторами New Yorker; и, для некоторых конкурсов, оценки качества от людей для каждого представления.
Для каждого конкурса исследователи проверили два вида искусственного интеллекта — «из пикселей» (компьютерное зрение) и «из описания» (анализ человеческих комментариев к картинкам) — для трех задач.
«Есть наборы данных с фотографиями из Flickr с подписями вроде ‘Это моя собака'», — сказал Хессель. «Интересно в случае с New Yorker в том, что отношения между изображениями и подписями косвенные, игривые и отсылают к множеству реальных объектов и норм. И поэтому задача ‘понимания’ отношения между этими вещами требует некоторой изощренности».
В эксперименте сопоставление требовало от моделей искусственного интеллекта выбрать финальную подпись для данной картинки среди «отвлекающих» финалистов других конкурсов; ранжирование качества требовало от моделей различать финальную подпись от проигравшей; и объяснение требовало от моделей генерировать свободный текст, объясняющий, как лучшая подпись связана с картинкой.
Большую часть объяснений, сгенерированных людьми, Хессель написал сам, после того, как задача краудсорсинга оказалась неудовлетворительной. Он составил объяснения по 60 слов для более чем 650 картинок.
Это исследование показало значительный разрыв между «пониманием» искусственного интеллекта и уровнем понимания человека, почему картинка смешная. Лучший результат искусственного интеллекта в тесте с выбором из нескольких вариантов для сопоставления картинки и подписи составил всего 62% точности, что далеко от 94% у людей в том же контексте. И когда речь заходила о сравнении объяснений, созданных человеком и искусственным интеллектом, предпочтение отдавалось объяснениям людей примерно 2 к 1.
Хотя искусственный интеллект пока может не «понимать» юмор, авторы написали, что он может быть сотрудничающим инструментом, который юмористы могут использовать для генерации идей.
Среди других участников Ана Марасович, доцент Школы вычислительной техники Университета Юты; Джена Д. Хванг, научный сотрудник AI2; Джефф Да, научный сотрудник Вашингтонского университета Роуэн Зеллерс, исследователь OpenAI; и юморист Роберт Манкофф, президент Cartoon Collections и давний редактор мультфильмов в New Yorker.
Авторы написали эту статью в духе предмета исследования, с игривыми комментариями и сносками на протяжении всего текста.
«Эти три или четыре года исследований не всегда были супер веселыми», — сказала Ли, «но то, что мы пытаемся делать в своей работе, или по крайней мере в написании статей, — это поощрять больше духа веселья».