Alibaba Cloud сократила использование GPU Nvidia на 82% благодаря новой системе пулинга

Alibaba Cloud заявляет, что её новая система пулинга Aegaeon сократила количество GPU Nvidia, необходимых для работы больших языковых моделей, на 82% в ходе многомесячного бета-тестирования внутри её маркетплейса Model Studio. Результаты, опубликованные в рецензируемой статье, представленной на симпозиуме ACM 2025 года по операционным системам (SOSP) в Сеуле, позволяют предположить, что облачные провайдеры смогут извлекать значительно больше вычислительных мощностей для инференса из существующих чипов. Это особенно актуально для рынков с ограничениями, таких как Китай, где поставки новейших GPU H20 от Nvidia остаются ограниченными.

В отличие от прорывов в обучении, которые нацелены на качество или скорость моделей, Aegaeon — это планировщик для этапа инференса, разработанный для максимизации использования GPU при работе множества моделей со скачкообразным или непредсказуемым спросом. Вместо закрепления одного ускорителя за одной моделью, Aegaeon виртуализирует доступ к GPU на уровне токенов, что позволяет планировать крошечные фрагменты работы в общем пуле. Это означает, что один H20 может одновременно обслуживать несколько разных моделей, при этом «полезная пропускная способность» (goodput) — мера эффективного вывода — в масштабах всей системы возрастает до девяти раз по сравнению со старыми бессерверными системами.

«Вместо закрепления одного ускорителя за одной моделью, Aegaeon виртуализирует доступ к GPU на уровне токенов»

Согласно статье, система тестировалась в рабочей среде в течение нескольких месяцев. В числе авторов работы — представители Пекинского университета и инфраструктурного подразделения Alibaba, включая технического директора Цзинжэня Чжоу. За этот период количество GPU, необходимых для поддержки десятков различных LLM (размером до 72 миллиардов параметров), сократилось с 1192 до всего 213.

Хотя в статье не указано, какие именно модели внесли наибольший вклад в экономию, репортаж South China Morning Post сообщает, что тесты проводились с использованием H20 от Nvidia — одного из немногих ускорителей, которые всё ещё легально доступны китайским покупателям в рамках действующих экспортных ограничений США.

Alibaba утверждает, что достижения стали результатом двух основных методов: размещения нескольких моделей на одном GPU и использования автомасштабирования на уровне токенов для динамического распределения вычислительных ресурсов по мере генерации вывода, вместо резервирования ресурсов на уровне запроса. В тестах Aegaeon превзошла показатели полезной пропускной способности ServerlessLLM и MuxServe с отрывом от 1,5 до 9 раз.

Остаётся вопрос, будут ли эти результаты воспроизводимы за пределами инфраструктуры Alibaba. В статье Alibaba Cloud не указана точная сетевая инфраструктура, использовавшаяся в бета-тесте, однако известно, что компания предлагает собственную сеть eRDMA (elastic RDMA) и имеет опыт создания высокоинтегрированных стеков для обслуживания GPU. Это позволяет предположить, что результаты могут зависеть от оптимизированной, вертикально интегрированной среды.

Тем не менее, результат, вероятно, вызовет интерес у других крупных облачных провайдеров, которые стремятся максимально эффективно использовать ограниченный парк ускорителей на фоне продолжающегося роста спроса на инференс.

Источник: Tomshardware.com

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.


0 комментариев

Оставить комментарий


Все комментарии - Технологии