Nous Research, частная группа прикладных исследований, известная публикациями работ с открытым исходным кодом в области больших языковых моделей (LLM), представила облегченную зрительно-языковую (vision-language) модель под названием Nous Hermes 2 Vision.
Доступная через Hugging Face, модель с открытым исходным кодом построена на основе предыдущей модели компании OpenHermes-2.5-Mistral-7B. В ней реализованы возможности машинного зрения, включая возможность подсказок с помощью изображений и извлечения текстовой информации из визуального контента.
Однако вскоре после запуска выяснилось, что модель галлюцинирует чаще, чем ожидалось, что привело к сбоям и переименованию проекта в Nous Hermes 2 Vision Alpha. Ожидается, что после этого компания выпустит более стабильный релиз, обеспечивающий аналогичные преимущества, но с меньшим количеством глюков.
Названная в честь Гермеса, греческого посланника богов, зрительно-языковая модель Nous Hermes 2 Vision задумана как система, которая с небесным изяществом ориентируется в «сложных хитросплетениях человеческого общения». Она использует данные изображений, предоставленных пользователем, и объединяет визуальную информацию со своими знаниями, чтобы предоставить подробные ответы на естественном языке.
Например, она может проанализировать изображение пользователя и подробно описать различные аспекты того, что на нем изображено. Сооснователь компании Nous, который на платформе X выступает под ником Teknium, поделился тестовым скриншотом, на котором LLM смогла проанализировать фотографию бургера и выяснить, не вредно ли его есть, а также объяснить, почему.
Хотя ChatGPT, основанный на GPT-4V, также предоставляет возможность подсказок с помощью изображений, предложение с открытым исходным кодом от Nous отличается двумя ключевыми улучшениями.
Во-первых, в отличие от традиционных подходов, которые полагаются на сложные видеокодеры, Nous Hermes 2 Vision использует SigLIP-400M. Это не только упрощает архитектуру модели, делая ее более легкой по сравнению с аналогами, но и помогает повысить производительность при решении зрительно-языковых задач.
Во-вторых, модель была обучена на специальном наборе данных, дополненном вызовом функций. Это позволяет пользователям запрашивать модель с помощью тега и извлекать письменную информацию из изображения, например меню или рекламного щита.
«Это замечательное дополнение превращает Nous Hermes 2 Vision в модель зрение-язык-действие (vision-language-action). Теперь в распоряжении разработчиков есть универсальный инструмент, позволяющий создавать огромное количество гениальных автоматизированных систем», — написала компания на странице модели в Hugging Face.
Для обучения модели использовались также наборы данных LVIS-INSTRUCT4V, ShareGPT4V и диалоги из OpenHermes-2.5.
Хотя зрительно-языковая модель Nous доступна для исследований и разработок, раннее использование показало, что она далека от совершенства.
Вскоре после релиза сооснователь опубликовал сообщение о том, что с моделью что-то не так, что она часто галлюцинирует, спамит токенами EOS и т. д. Позже модель была переименована в альфа-версию.
«Я вижу, что люди говорят о «галлюцинациях», и да, это очень плохо. Я тоже знал об этом, поскольку основанная на ней LLM является моделью без цензуры. Я сделаю обновленную версию к концу месяца, чтобы решить эти проблемы», — написал на ресурсе X Куан Нгуен, научный сотрудник, возглавляющий работу над ИИ в Nous.
При этом Нгуен отметил в другом сообщении, что возможность вызова функций по-прежнему работает хорошо, если пользователь определяет хорошую схему. Он также сказал, что выпустит специальную модель для вызова функций, если отзывы пользователей будут достаточно хорошими.
На данный момент Nous Research выпустила 41 модель с открытым исходным кодом с различными архитектурами и возможностями в рамках серий Hermes, YaRN, Capybara, Puffin и Obsidian.