В связи с ростом популярности генеративного ИИ, который часто обучается и запускается на графических процессорах, наблюдается нехватка графических процессоров. По имеющимся данным, самые производительные чипы Nvidia распроданы до 2024 года. Генеральный директор производителя чипов TSMC недавно был менее оптимистичен, предположив, что нехватка GPU от Nvidia, а также от ее конкурентов, может продлиться до 2025 года.
Чтобы уменьшить зависимость от GPU, компании, которые могут себе это позволить (то есть технологические гиганты), разрабатывают — и в некоторых случаях предоставляют клиентам — специальные чипы, предназначенные для создания, итерации и продуктивного использования моделей ИИ. Одной из таких компаний является Amazon, которая на своей ежегодной конференции re:Invent представила новейшее поколение своих чипов для обучения и вывода моделей (т. е. запуска обученных моделей).
По словам Amazon, первый из двух чипов, AWS Trainium2, призван обеспечить в 4 раза более высокую производительность и в 2 раза более высокую энергоэффективность по сравнению с первым поколением Trainium, представленным в декабре 2020 года. Tranium2 будет доступен в инстансах EC Trn2 в кластерах из 16 чипов в облаке AWS, а в решении AWS EC2 UltraCluster он может масштабироваться до 100 000 чипов.
По словам Amazon, сто тысяч чипов Trainium обеспечивают 65 эксафлопс вычислений, что в пересчете на один чип составляет 650 терафлопс (эксафлопс и терафлопс измеряют количество вычислительных операций в секунду, которые может выполнить чип). Вероятно, существуют факторы, усложняющие расчеты, из-за которых эти вычисления не обязательно будут невероятно точными. Но если предположить, что один чип Tranium2 действительно может обеспечить примерно такую производительность, то это значительно превышает возможности пользовательских чипов Google для обучения ИИ, выпущенных в 2017 году.
Amazon утверждает, что кластер из 100 000 чипов Trainium может обучить большую языковую модель ИИ с 300 миллиардами параметров за несколько недель против нескольких месяцев (параметры — это части модели, полученные из обучающих данных и, по сути, определяющие мастерство модели в решении той или иной задачи, например генерации текста или кода). Это примерно в 1,75 раза больше, чем у GPT-3 от OpenAI, предшественницы модели GPT-4, генерирующей текст.
«Кремний лежит в основе всех рабочих нагрузок клиентов, что делает его критически важной областью инноваций для AWS», — заявил в пресс-релизе вице-президент AWS по вычислениям и сетям Дэвид Браун. «Учитывая всплеск интереса к генеративному искусственному интеллекту, Tranium2 поможет клиентам обучать свои ML модели быстрее, по более низкой цене и с большей энергоэффективностью».
Amazon не сообщила, когда образцы Trainium2 станут доступны для клиентов AWS, сказав лишь, что «примерно в следующем году».
Второй чип, который Amazon анонсировала, это Graviton4 на базе Arm, и предназначен для вычислений. Являясь четвертым поколением семейства чипов Graviton (на что намекает цифра «4», добавленная к слову «Graviton»), он отличается от другого чипа Amazon, Inferentia.
Amazon утверждает, что Graviton4 обеспечивает на 30 % более высокую вычислительную производительность, на 50 % больше ядер и на 75 % больше пропускной способности памяти, чем процессор Graviton предыдущего поколения, Graviton3 (но не более новый Graviton3E), работающий на Amazon EC2. Еще одно обновление по сравнению с Graviton3 — все физические аппаратные интерфейсы Graviton4 «зашифрованы», говорят в Amazon, что якобы лучше защищает рабочие нагрузки и данные для обучения ИИ для клиентов с повышенными требованиями к шифрованию.
«Graviton4 — это четвертое поколение, которое мы выпустили всего за пять лет, и это самый мощный и энергоэффективный чип, который мы когда-либо создавали для широкого спектра рабочих нагрузок», — говорится в заявлении Брауна. «Ориентируя наши чипы на реальные рабочие нагрузки, которые важны для клиентов, мы можем предоставить им самую передовую облачную инфраструктуру».
Graviton4 будет доступен в инстансах Amazon EC2 R8g, которые уже сегодня доступны в предварительной версии, а общая доступность запланирована на ближайшие месяцы.