DeepLink: новая технология позволяет объединить мощности разных китайских GPU для ИИ

Лаборатория искусственного интеллекта Шанхая (Shanghai AI Lab) представила решение DeepLink для смешанного ускорения вывода (инференса) на разнородных вычислениях. Новая технология позволяет осуществлять совместное использование и управление графическими процессорами от разных китайских производителей, включая Huawei Ascend, Moore Threads, Alibaba T-Head и Biren Technology.

Решение DeepLink основано на единой промежуточной программной прослойке для вывода, низколатентной коммуникации, интеллектуальной маршрутизации трафика и решателе стратегий. По заявлению разработчиков, оно не только обеспечивает гибридное планирование и совместный инференс на нескольких типах чипов, но и значительно повышает производительность. По сравнению с использованием одного типа чипов, задержка начала вывода (TTFT) может быть сокращена до 34,5%, а пропускная способность инференса — увеличена до 32%.

В последние годы китайские ИИ-ускорители появляются как грибы после дождя, и их производительность растёт. Однако они часто работают изолированно, а технологии вывода для больших языковых моделей требуют дальнейшей оптимизации.

В своей работе с разнородными вычислениями на отечественных GPU лаборатория применила стратегию разделения предзаполнения и декодирования (PD separation), подтвердив эффективность пути совместного гибридного инференса.

Оптимизированное использование GPU разных спецификаций и свойств в одном дата-центре позволяет сформировать наиболее экономически эффективное соотношение разнородных вычислительных мощностей.

Конкретная реализация основана на четырёх оригинальных технологических компонентах, обеспечивающих совместимость и управление ресурсами разнородных вычислений.

Промежуточное ПО для вывода (DLInfer):

Стандартизированные интерфейсы операторов устраняют барьеры между фреймворками верхнего уровня и аппаратным обеспечением нижнего уровня, обеспечивая единый вывод алгоритмических моделей на разнородном «железе» и снижая порог входа для приложений.

Высокоскоростная коммуникационная библиотека (DLSlime):

Полностью совместима с различными основными физическими протоколами соединения, обеспечивает высокоскоростное взаимодействие между устройствами разных архитектур, с использованием полосы пропускания в ключевых сценариях более 97%. Обладает высокой асинхронной производительностью, позволяя совмещать вычисления и коммуникации.

Система интеллектуальной маршрутизации трафика (DLRouter):

Поддерживает маршрутизацию запросов с учётом KVCache, максимально сокращая повторяющиеся или перекрывающиеся запросы, экономя вычислительные ресурсы и обеспечивая сбалансированное распределение нагрузки в распределённом кластере.

Решатель стратегий (DLSolver):

Автоматически собирает всесторонние данные тестирования разнородных чипов и, учитывая конфигурацию модели и цели уровня обслуживания, подбирает оптимальную стратегию конфигурации PD-разделения, балансируя между производительностью вывода и стоимостью.

В части ускорения инференса на единой вычислительной платформе решение позволяет, например, повысить пропускную способность на 61,9% для сценария генерации химических данных на кластере из тысячи карт Huawei Ascend A2. На ускорителе Moore Threads MTT C500 достигается ускорение вывода на 60% для мультимодальной генерации в модели MinerU.

Что касается глубокого совместного планирования и инференса на нескольких типах китайских GPU, тесты в кластере для вывода масштаба в тысячу карт показали, что в типичных сценариях, таких как мультимодальная генерация и высококонкурентные интеллектуальные сервисы, задержка TTFT может быть сокращена до 34,5% по сравнению с одночиповым решением.

В задачах вывода с длинным вводом и коротким выводом, таких как обработка научных статей, пропускная способность инференса может быть повышена на 32%.

Стоит отметить, что помимо четырёх упомянутых компаний, партнёрами Shanghai AI Lab и технологии DeepLink также являются Cambricon, Enflame, Iluvatar CoreX, InfiniteWave, SenseTime и Sugon.

Ожидается, что в будущем всё больше китайских GPU смогут работать совместно.


DeepLink合作伙伴

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.


0 комментариев

Оставить комментарий


Все комментарии - Технологии