Arthur выпускает инструмент с открытым исходным кодом, чтобы помочь компаниям найти лучшую LLM для работы

Arthur, стартап по мониторингу машинного обучения, в этом году воспользовался интересом к генеративному ИИ и разрабатывал инструменты, чтобы помочь компаниям эффективнее работать с большими языковыми моделями. Вчера компания выпустила Arthur Bench, открытый инструмент для помощи пользователям в поиске лучшей LLM для конкретного набора данных.

Адам Венчел, генеральный директор и сооснователь Arthur, говорит, что компания наблюдала большой интерес к генеративному ИИ и языковым моделям, поэтому они приложили много усилий к созданию продуктов.

Он говорит, что на данный момент, прошло менее года с момента выпуска ChatGPT и, у компаний нет организованного способа измерить эффективность одного инструмента по сравнению с другим. Именно поэтому они создали Arthur Bench.

«Arthur Bench решает одну из ключевых проблем, о которой мы слышим от каждого клиента, а именно — (со всеми вариантами моделей) какая лучше всего подходит для вашего конкретного приложения», — рассказал Венчел TechCrunch.

Инструмент поставляется в комплекте с набором средств, которые можно использовать для методического тестирования производительности. Но настоящая ценность заключается в том, что он позволяет протестировать и измерить, как типы запросов, которые ваши пользователи могли бы использовать для вашего конкретного приложения, будут работать с различными моделями языка.

«Вы потенциально могли бы протестировать 100 различных запросов и посмотреть, как две разные языковые модели — например, Anthropic по сравнению с OpenAI — работают на тех типах запросов, которые ваши пользователи, вероятно, будут использовать», — сказал Венчел. Более того, он говорит, что вы можете сделать это в масштабе и принять более обоснованное решение о том, какая модель лучше всего подходит для вашего конкретного случая использования.

Arthur Bench выпускается как открытый инструмент. Также будет доступна SaaS-версия для клиентов, которые не хотят иметь дело со сложностью управления открытой версией или у которых есть более масштабные требования к тестированию и которые готовы заплатить за это. Но сейчас, по словам Венчела, они сосредоточены на проекте с открытым исходным кодом.

Выпуск нового инструмента последовал за выпуском в мае Arthur Shield, своего рода брандмауэра для языковых моделей, предназначенного для обнаружения галлюцинаций в моделях, защиты от токсичной информации и утечек конфиденциальных данных.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *