На конференции re:Invent 2023 облачное подразделение AWS компании Amazon объявило о запуске SageMaker HyperPod, нового специализированного сервиса для обучения и тонкой настройки больших языковых моделей (LLM). SageMaker HyperPod уже доступен для широкой публики.
Компания Amazon уже давно делает ставку на SageMaker, свой сервис для построения, обучения и развертывания моделей машинного обучения, как на основу своей стратегии машинного обучения. Теперь, с появлением генеративного ИИ, неудивительно, что компания также опирается на SageMaker как на основной продукт, облегчающий пользователям обучение и тонкую настройку LLM.
«SageMaker HyperPod дает возможность создать распределенный кластер с ускоренными инстансами, оптимизированный для распределенного обучения», — сказал в интервью Анкур Мехротра, генеральный менеджер AWS по SageMaker, в преддверии сегодняшнего объявления. «Это дает вам инструменты для эффективного распределения моделей и данных по кластеру — и это ускоряет процесс обучения».
Он также отметил, что SageMaker HyperPod позволяет пользователям часто сохранять контрольные точки, что дает им возможность приостанавливать, анализировать и оптимизировать процесс обучения без необходимости начинать его сначала. Сервис также включает в себя ряд защит от сбоев, чтобы в случае выхода из строя одного из графических процессоров весь процесс обучения также не вышел из строя.
«Например, для команды ML, которая заинтересована только в обучении модели — для них это становится как бы «нулевым» опытом, а кластер становится в некотором смысле самовосстанавливающимся кластером», — объясняет Мехротра. «В целом, эти возможности помогут вам обучать базовые модели на 40 % быстрее, что, если подумать о стоимости и времени выхода на рынок, является огромным преимуществом».
Пользователи могут выбрать обучение на собственных чипах Trainium (а теперь и Trainium 2) или на экземплярах GPU на базе Nvidia, в том числе на процессоре H100. Компания обещает, что HyperPod может ускорить процесс обучения на 40 %.
Компания уже имеет некоторый опыт в этой области, используя SageMaker для создания LLM. Например, модель Falcon 180B была обучена на SageMaker с помощью кластера из тысяч графических процессоров A100. Мехротра отметил, что AWS смогла использовать то, что она узнала из этого и предыдущего опыта масштабирования SageMaker, для создания HyperPod.
Сооснователь и генеральный директор Perplexity AI Аравинд Шринивас рассказал, что его компания получила ранний доступ к сервису во время его частного бета-тестирования. Он отметил, что его команда изначально скептически относилась к использованию AWS для обучения и тонкой настройки своих моделей.
«Мы раньше не работали с AWS», — сказал он. «Существовал миф — именно миф, а не факт, — что у AWS нет отличной инфраструктуры для обучения больших моделей, и, очевидно, у нас не было времени провести должную проверку, поэтому мы поверили в это». Однако команда связалась с AWS, и ее инженеры предложили им протестировать сервис бесплатно. Он также отметил, что ему было легко получить поддержку от AWS — и доступ к достаточному количеству графических процессоров для использования в Perplexity. Конечно, помогло и то, что команда уже была знакома с работой над выводами на AWS.
Шринивас также подчеркнул, что команда AWS HyperPod уделила большое внимание ускорению соединительных элементов, связывающих видеокарты Nvidia. «Они оптимизировали примитивы — различные примитивы Nvidia, — которые позволяют передавать эти градиенты и параметры между различными узлами», — пояснил он.