Китай обошел санкции США на GPU с помощью суперкомпьютера «LineShine» на 2,4 миллиона процессорных ядер Huawei
Китай продолжает обходить американские санкции на поставки GPU, разворачивая суперкомпьютеры, работающие исключительно на процессорах. Национальный суперкомпьютерный центр (NSCC) в Шэньчжэне ввел в строй систему «LineShine» производительностью 1,54 эксафлопса, которая использует 20 480 процессоров LX2 на архитектуре Armv9.
Каждый процессор LX2, который, по данным Jon Peddie Research, разработан компанией Huawei, содержит 304 ядра, объединенные в восемь кластеров по 38 ядер. Процессор оснащен блоками векторных (SVE) и матричных (SME) расширений Arm, поддерживающими форматы данных FP64, FP32, BF16, FP16 и INT8. Уникальной особенностью является подсистема памяти, сочетающая 32 ГБ встроенной памяти HBM с пропускной способностью до 4 ТБ/с и до 256 ГБ внешней памяти DDR5. Один процессор LX2 обеспечивает 60,3 TFLOPS производительности FP64, 240 TFLOPS BF16/FP16 и 960 TOPS INT8.
Суперкомпьютер «LineShine» состоит из 20 480 вычислительных узлов, каждый из которых содержит два процессора LX2. Таким образом, общее количество ядер в системе достигает 2 451 840. Узлы соединены высокоскоростной сетью LingQi (LQLink) с пропускной способностью 1,6 Тбит/с на узел. Пиковая производительность системы при обучении модели генеративного сжатия данных наблюдения Земли с 6,3 миллиарда параметров достигает 2,16 эксафлопса.
Для сравнения, теоретическая пиковая производительность кластера Colossus компании xAI, использующего сотни тысяч GPU Nvidia, оценивается в 497,9 эксафлопса. Однако, учитывая, что реальная загрузка таких систем обычно составляет около 15%, Colossus может выдавать порядка 75 эксафлопсов.
Использование систем только на CPU дает ряд преимуществ: отсутствие дорогостоящих операций передачи данных между CPU и GPU, упрощенная модель программирования, единое и большое адресное пространство памяти (HBM + DDR), а также снижение зависимости от иностранных ускорителей и экосистемы CUDA. Однако такие системы обычно менее энергоэффективны и обеспечивают меньшую плотность вычислений для задач ИИ по сравнению с гибридными архитектурами CPU+GPU.







0 комментариев