Исследователи Google DeepMind недавно разработали методику улучшения математических способностей языковых моделей ИИ типа ChatGPT путем использования других моделей ИИ для улучшения подсказок — письменных инструкций, указывающих модели ИИ, что нужно делать. Было обнаружено, что использование подсказок в человеческом стиле значительно улучшает математические способности, что согласуется с более ранними результатами.
В статье «Большие языковые модели как оптимизаторы», опубликованной в этом месяце на сайте arXiv, ученые DeepMind представили метод оптимизации с помощью подсказок (OPRO), позволяющий повысить производительность больших языковых моделей (LLM), таких как ChatGPT от OpenAI и PaLM 2 от Google. Этот новый подход позволяет обойти ограничения традиционных математических оптимизаторов за счет использования естественного языка для управления LLM при решении задач. «Естественный язык» — это удобный способ выражения в повседневной человеческой речи.
«Вместо того чтобы формально определять проблему оптимизации и выводить шаг обновления с помощью программируемого решателя, — пишут исследователи, — мы описываем проблему оптимизации на естественном языке, а затем инструктируем LLM итеративно генерировать новые решения на основе описания проблемы и ранее найденных решений».
Как правило, в машинном обучении в качестве ориентира для улучшения работы модели ИИ используются алгоритмы, подобные оптимизаторам на основе производных. Представьте себе производительность модели в виде кривой на графике: Задача состоит в том, чтобы найти самую низкую точку на этой кривой, поскольку именно там модель допускает меньше всего ошибок. Используя наклон кривой для корректировки, оптимизатор помогает модели приближаться к идеальной нижней точке, делая ее более точной и эффективной в решении поставленных задач.
Вместо того чтобы полагаться на формальные математические определения для выполнения этой задачи, OPRO использует «мета-подсказки», описанные на естественном языке, чтобы создать основу для процесса оптимизации. Затем LLM генерирует решения-кандидаты на основе описания задачи и предыдущих решений и проверяет их, присваивая каждому из них оценку качества.
В OPRO две большие языковые модели играют разные роли: LLM, оценивающая результат, оценивает целевую функцию, например точность, а LLM-оптимизатор генерирует новые решения на основе предыдущих результатов и описания на естественном языке. Рассматриваются различные комбинации LLM-оценщика и LLM-оптимизатора, включая модели типа PaLM 2 и варианты GPT. OPRO может оптимизировать подсказки для LLM-оценщика, заставляя оптимизатор итеративно генерировать подсказки с более высокими баллами. Эти оценки помогают системе выявить лучшие решения, которые затем добавляются в «мета-подсказку» для следующего раунда оптимизации.
«Сделайте глубокий вдох и работайте над этим шаг за шагом».
Пожалуй, наиболее интригующей частью исследования DeepMind является влияние конкретных фраз на результаты. Фразы типа «давайте думать шаг за шагом» побуждали каждую модель ИИ выдавать более точные результаты при тестировании на наборах данных математических задач. (Эта методика стала широко известна в мае 2022 года благодаря ставшей знаменитой статье «Large Language Models are Zero-Shot Reasoners»).
Рассмотрим простую словесную задачу, например, такую: «Бет печет четыре партии печенья по две дюжины штук в неделю. Если это печенье разделить поровну между 16 людьми, то сколько печенья съест каждый человек?». В работе 2022 года было обнаружено, что вместо того, чтобы просто скормить чат-боту подобную словесную задачу, следует добавить префикс «Давай подумаем шаг за шагом», а затем вставить задачу. Точность результатов ИИ-модели почти всегда повышается, и это хорошо работает с ChatGPT.
Интересно, что в ходе последнего исследования ученые DeepMind пришли к выводу, что фраза «Сделайте глубокий вдох и работайте над этой проблемой шаг за шагом» является наиболее эффективной при использовании языковой модели Google PaLM 2. Эта фраза достигла наивысшей точности в 80,2% в тестах GSM8K, представляющих собой набор данных, состоящий из школьных задач по математике. Для сравнения, PaLM 2 без специальных подсказок набрал только 34% точности в GSM8K, а классическая подсказка «Давайте думать шаг за шагом» — 71,8% точности.
Почему же это работает? Очевидно, что большие языковые модели не могут сделать глубокий вдох, поскольку у них нет легких и тела. Они также не думают и не рассуждают, как люди. То, что они «рассуждают» (а «рассуждение» — это спорный термин, хотя в ИИ он охотно используется как художественный термин), заимствуется из огромного массива данных о языковых фразах, взятых из книг и Интернета. Сюда входят такие темы, как форумы вопросов и ответов, которые содержат множество примеров «давайте сделаем глубокий вдох» или «подумайте шаг за шагом», прежде чем показать более тщательно обоснованные решения. Эти фразы могут помочь LLM найти лучшие ответы или создать лучшие примеры рассуждений или решения проблем из набора данных, которые она впитала в весовые коэффициенты своей нейронной сети.
Несмотря на то, что разработка оптимальных способов поощрения LLM, похожих на человеческие, вызывает у нас некоторое недоумение, для OPRO это не проблема, поскольку для обнаружения более эффективных фраз-подсказок в данной технологии используются большие языковые модели. Исследователи DeepMind считают, что главным преимуществом OPRO является ее способность просеивать множество возможных подсказок, чтобы найти ту, которая дает наилучший результат для конкретной задачи. Это может позволить людям в будущем получать от LLM гораздо более полезные и точные результаты.