Исследование, опубликованное в этом месяце исследователями из Стэнфордского университета, Калифорнийского университета в Беркли и компании Samaya AI, показало, что большие языковые модели (LLM) часто не могут получить доступ и использовать соответствующую информацию, предоставленную им в более длинных контекстных окнах.
В языковых моделях контекстное окно относится к длине текста, который модель может обработать и ответить в определенном случае. Это можно представить как рабочую память для конкретного анализа текста или диалога с чат-ботом.
Исследование получило широкое внимание на прошлой неделе после его публикации, потому что многие разработчики и другие пользователи, экспериментирующие с LLM, предполагали, что тенденция к использованию более длинных окон контекста будет продолжаться и улучшать производительность LLM и их полезность в различных приложениях.
Если LLM могла бы принять весь документ или статью в качестве входных данных для своего окна контекста, то, согласно общепринятому мнению, LLM могла бы обеспечить идеальное понимание всего содержания этого документа, когда ей задают вопросы об этом.
Недостатки предположений о контекстном окне
Компании, занимающиеся LLM, такие как Anthropic, разжигали интерес к идее более длинных контекстных окон, где пользователи могут предоставить все больше входных данных для анализа или резюмирования. Anthropic только что выпустила новую модель под названием Claude 2, которая обеспечивает огромное окно контекста из 100 тысяч токенов и заявляет, что она может обеспечить новые возможности, такие как резюмирование длинных разговоров или написание меморандумов и статей.
Однако исследование показывает, что некоторые предположения о контекстном окне ошибочны, когда речь идет о способности LLM точно искать и анализировать его.
Исследование показало, что LLM показывают лучшие результаты «когда соответствующая информация находится в начале или конце входного контекста и значительно ухудшаются, когда моделям необходим доступ к соответствующей информации в середине длинного контекста. Кроме того, производительность существенно снижается с увеличением длины входного контекста, даже для моделей с явно длинным контекстом».
На прошлой неделе представители индустрии, такие как Боб Видерхолд, главный операционный директор компании Pinecone, специализирующейся на векторных базах данных, ссылались на исследование как на доказательство того, что загрузка целых документов в окно для выполнения задач, таких как поиск и анализ, не будет панацеей, на которую многие надеялись.
Предпочтительнее семантический поиск по сравнению с загрузкой документов
Векторные базы данных, такие как Pinecone, помогают разработчикам увеличить память LLM, ища соответствующую информацию для добавления в окно контекста. Видерхолд указал на исследование, как на доказательство того, что векторные базы данных будут оставаться жизнеспособными в обозримом будущем, поскольку исследование показывает, что семантический поиск, предоставляемый векторными базами данных, лучше, чем загрузка документов.
Нельсон Лю, главный автор исследования из Стэнфордского университета, согласился с тем, что если вы пытаетесь внедрить весь PDF-документ в окно контекста языковой модели и затем задавать вопросы о документе, поиск в векторной базе данных, как правило, будет более эффективным для использования.
«Если вы ищете в большом количестве документов, вам следует использовать нечто, предназначенное для поиска, по крайней мере, пока», — сказал Лю.
Однако Лю предупредил, что исследование не утверждает, что загрузка целых документов в окно контекста не будет работать. Результаты будут зависеть от конкретного содержания документов, которые анализируются LLM. Языковые модели плохо различают множество вещей, которые тесно связаны или которые кажутся соответствующими, пояснил Лю. Но они хорошо находят одну вещь, которая явно является соответствующей, когда большинство других вещей не являются соответствующими.
«Так что я думаю, что это немного более сложно, чем «вы должны всегда использовать векторную базу данных или никогда не использовать векторную базу данных», — сказал он.
Лучшее применение языковых моделей: генерация контента
Лю сказал, что его исследование предполагало, что большинство коммерческих приложений работают в условиях, когда они используют некоторую форму векторной базы данных, чтобы помочь вернуть несколько возможных результатов в окно контекста. Исследование показало, что наличие большего количества результатов в окне контекста не всегда улучшает производительность.
Как специалист по обработке языка, Лю сказал, что его удивляет то, что люди думают об использовании окна контекста для поиска контента, его агрегации или синтеза, хотя он понимает, почему люди хотели бы это сделать. Он сказал, что люди должны продолжать думать о языковых моделях, как об лучшем инструменте для генерации контента, а об поисковых системах, для поиска контента.
«Надежда, что вы можете просто бросить все в языковую модель и надеяться, что она будет работать, я не думаю, что мы до этого дошли», — сказал он. «Но, возможно, мы придем к этому через несколько лет или даже несколько месяцев. Мне не очень ясно, насколько быстро будет развиваться это пространство, но я думаю, что в настоящее время языковые модели не заменят векторные базы данных и поисковые системы».