В то время как такие компании, как d-Matrix, выходят на прибыльный рынок искусственного интеллекта с логической инфраструктурой вывода, лидер в области ИИ NVIDIA 8 сентября представила программное обеспечение TensorRT-LLM — библиотеку технологий вывода LLM, предназначенную для ускорения обработки выводов ИИ.
Что такое TensorRT-LLM?
TensorRT-LLM — это библиотека с открытым исходным кодом, которая работает на графических процессорах NVIDIA Tensor Core. Она создана для того, чтобы предоставить разработчикам возможность экспериментировать с построением новых больших языковых моделей, которые являются основой генеративного ИИ, такого как ChatGPT.
В частности, в TensorRT-LLM рассматриваются вопросы вывода — усовершенствование обучения ИИ или того, как система учится связывать понятия и делать предсказания, — а также определения, оптимизации и выполнения LLM. TensorRT-LLM призван ускорить выполнение вывода на графических процессорах NVIDIA, заявили в компании.
TensorRT-LLM будет использоваться для создания версий современных мощных LLM, таких как Meta* Llama 2, OpenAI GPT-2 и GPT-3, Falcon, Mosaic MPT, BLOOM и других.
Для этого TensorRT-LLM включает в себя компилятор глубокого обучения TensorRT, оптимизацию ядер, предварительную и постобработку, взаимодействие с несколькими GPU и несколькими узлами, а также интерфейс программирования приложений на Python с открытым исходным кодом.
NVIDIA отмечает, что привлекательность TensorRT-LLM заключается в том, что для работы с ней разработчикам не требуется глубоких знаний C++ или NVIDIA CUDA.
«TensorRT-LLM проста в использовании, обладает широкими возможностями: потоковая передача токенов, пакетная обработка в реальном времени, квантование и многое другое, а также большая эффективность», — сказал Навин Рао (Naveen Rao), вице-президент по разработке в Databricks, в пресс-релизе NVIDIA. «Она обеспечивает современную производительность при обслуживании LLM с помощью графических процессоров NVIDIA и позволяет нам экономить средства для наших клиентов».
Databricks была в числе компаний, получивших раннее тестирование TensorRT-LLM.
Ранний доступ к TensorRT-LLM доступен уже сейчас для тех, кто подписался на программу NVIDIA для разработчиков. NVIDIA утверждает, что для более широкого распространения она будет доступна «в ближайшие недели», согласно первоначальному пресс-релизу.
Как TensorRT-LLM повышает производительность графических процессоров NVIDIA
LLM, выполняющие обобщение статей, работают быстрее на TensorRT-LLM и графическом процессоре NVIDIA H100 по сравнению с той же задачей на чипе NVIDIA A100 предыдущего поколения без библиотеки LLM, сообщает NVIDIA. При использовании только H100 производительность GPT-J 6B LLM inferencing выросла в 4 раза. Программное обеспечение TensorRT-LLM обеспечило 8-кратное улучшение.
В частности, вывод может быть выполнен быстро, поскольку в TensorRT-LLM используется техника, которая разделяет отдельные весовые матрицы между устройствами. Эта технология, известная как тензорный параллелизм, означает, что выводы могут выполняться параллельно на нескольких GPU и на нескольких серверах одновременно.
По словам NVIDIA, пакетная обработка данных в реальном времени повышает эффективность вычислений. Проще говоря, готовые пакеты сгенерированного текста могут создаваться по одному, а не все сразу. Пакетная обработка в реальном времени и другие оптимизации призваны повысить эффективность использования GPU и снизить совокупную стоимость обслуживания.
План NVIDIA по снижению совокупной стоимости обслуживания ИИ
Использование LLM требует больших затрат. Фактически, LLM меняют представление о том, как центры обработки данных и обучение ИИ вписываются в баланс компании, считают в NVIDIA. Идея TensorRT-LLM заключается в том, что компании смогут создавать сложные генеративные ИИ без резкого роста совокупной стоимости обслуживания.
*Meta признана экстремистcкой организацией в России.