DeepLink: новая технология позволяет объединить мощности разных китайских GPU для ИИ

8 марта 2026, 10:30 / Технологии → Новости / Технологии

Лаборатория искусственного интеллекта Шанхая (Shanghai AI Lab) представила решение DeepLink для смешанного ускорения вывода (инференса) на разнородных вычислениях. Новая технология позволяет осуществлять совместное использование и управление графическими процессорами от разных китайских производителей, включая Huawei Ascend, Moore Threads, Alibaba T-Head и Biren Technology.

Решение DeepLink основано на единой промежуточной программной прослойке для вывода, низколатентной коммуникации, интеллектуальной маршрутизации трафика и решателе стратегий. По заявлению разработчиков, оно не только обеспечивает гибридное планирование и совместный инференс на нескольких типах чипов, но и значительно повышает производительность. По сравнению с использованием одного типа чипов, задержка начала вывода (TTFT) может быть сокращена до 34,5%, а пропускная способность инференса — увеличена до 32%.

В последние годы китайские ИИ-ускорители появляются как грибы после дождя, и их производительность растёт. Однако они часто работают изолированно, а технологии вывода для больших языковых моделей требуют дальнейшей оптимизации.

В своей работе с разнородными вычислениями на отечественных GPU лаборатория применила стратегию разделения предзаполнения и декодирования (PD separation), подтвердив эффективность пути совместного гибридного инференса.

Оптимизированное использование GPU разных спецификаций и свойств в одном дата-центре позволяет сформировать наиболее экономически эффективное соотношение разнородных вычислительных мощностей.

Конкретная реализация основана на четырёх оригинальных технологических компонентах, обеспечивающих совместимость и управление ресурсами разнородных вычислений.

Промежуточное ПО для вывода (DLInfer):

Стандартизированные интерфейсы операторов устраняют барьеры между фреймворками верхнего уровня и аппаратным обеспечением нижнего уровня, обеспечивая единый вывод алгоритмических моделей на разнородном «железе» и снижая порог входа для приложений.

Высокоскоростная коммуникационная библиотека (DLSlime):

Полностью совместима с различными основными физическими протоколами соединения, обеспечивает высокоскоростное взаимодействие между устройствами разных архитектур, с использованием полосы пропускания в ключевых сценариях более 97%. Обладает высокой асинхронной производительностью, позволяя совмещать вычисления и коммуникации.

Система интеллектуальной маршрутизации трафика (DLRouter):

Поддерживает маршрутизацию запросов с учётом KVCache, максимально сокращая повторяющиеся или перекрывающиеся запросы, экономя вычислительные ресурсы и обеспечивая сбалансированное распределение нагрузки в распределённом кластере.

Решатель стратегий (DLSolver):

Автоматически собирает всесторонние данные тестирования разнородных чипов и, учитывая конфигурацию модели и цели уровня обслуживания, подбирает оптимальную стратегию конфигурации PD-разделения, балансируя между производительностью вывода и стоимостью.

В части ускорения инференса на единой вычислительной платформе решение позволяет, например, повысить пропускную способность на 61,9% для сценария генерации химических данных на кластере из тысячи карт Huawei Ascend A2. На ускорителе Moore Threads MTT C500 достигается ускорение вывода на 60% для мультимодальной генерации в модели MinerU.

Что касается глубокого совместного планирования и инференса на нескольких типах китайских GPU, тесты в кластере для вывода масштаба в тысячу карт показали, что в типичных сценариях, таких как мультимодальная генерация и высококонкурентные интеллектуальные сервисы, задержка TTFT может быть сокращена до 34,5% по сравнению с одночиповым решением.

В задачах вывода с длинным вводом и коротким выводом, таких как обработка научных статей, пропускная способность инференса может быть повышена на 32%.

Стоит отметить, что помимо четырёх упомянутых компаний, партнёрами Shanghai AI Lab и технологии DeepLink также являются Cambricon, Enflame, Iluvatar CoreX, InfiniteWave, SenseTime и Sugon.

Ожидается, что в будущем всё больше китайских GPU смогут работать совместно.

DeepLink合作伙伴

DeepLink: новая технология позволяет объединить мощности разных китайских GPU для ИИ

0 комментариев

Оставить комментарий

Все комментарии - Технологии