CloudMatrix от Huawei обошёл Nvidia GB200

18 апреля 2025, 19:34 / Технологии → Новости / Технологии

Не имея возможности использовать передовые технологические процессы для производства своих высокопроизводительных процессоров для ИИ

Thumbnail: Искусственный интеллект Иску́сственный интелле́кт (ИИ; англ. artificial intelligence, AI) — свойство искусственных интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека (не следует путать с искусственным сознанием); наука и технология создания интеллектуальных машин, особенно интеллектуальных компьютерных программ. Искусственный интеллект связан со сходной задачей использования компьютеров для понимания человеческого интеллекта, но не обязательно ограничивается биологически правдоподобными методами. Существующие на сегодня интеллектуальные системы имеют довольно узкие области применения. Википедия

, Huawei

Thumbnail: Huawei Huawei Technologies Co. Ltd. (кит. трад. Википедия

вынуждена полагаться на грубую силу — устанавливать больше процессоров, чем ее конкуренты в отрасли, чтобы достичь сопоставимой производительности для ИИ.

Для этого Huawei применила многогранную стратегию, которая включает двухчиповый процессор HiSilicon Ascend 910C, оптические соединения и стоечное решение Huawei AI CloudMatrix 384, работающее на фирменном программном обеспечении, сообщает SemiAnalysis. Вся система обеспечивает в 2,3 раза более низкую производительность на ватт, чем GB200 NVL72 от Nvidia

NVIDIA Corporation (NASDAQ: NVDA) — американская компания, один из крупнейших разработчиков графических ускорителей и процессоров, а также наборов системной логики. На рынке продукция компании известна под такими торговыми марками как GeForce, nForce, Quadro, Tesla, ION и Tegra. Компания была основана в 1993 году. По состоянию на август 2006 года в корпорации насчитывалось более 8 тысяч сотрудников, работающих в 40 офисах по всему миру. Википедия

, но она по-прежнему позволяет китайским компаниям обучать передовые модели ИИ.

На первый взгляд

CloudMatrix 384 от Huawei — это стоечная система искусственного интеллекта, состоящая из 384 процессоров Ascend 910C, организованных в полностью оптическую, всеобъемлющую ячеистую сеть. Система охватывает 16 стоек, включая 12 вычислительных стоек, вмещающих 32 ускорителя каждая, и четыре сетевые стойки, обеспечивающие высокоскоростные соединения с использованием 6912 оптических трансиверов 800G LPO.

В отличие от традиционных систем, использующих медные провода для соединений, CloudMatrix полностью полагается на оптику как для внутри-, так и для межстоечного соединения, обеспечивая чрезвычайно высокую совокупную пропускную способность связи. CloudMatrix 384 — это машина корпоративного класса, которая отличается отказоустойчивостью и разработана для масштабируемости.

С точки зрения производительности, CloudMatrix 384 обеспечивает около 300 PFLOPs плотных вычислений BF16, что почти в два раза превышает пропускную способность системы Nvidia GB200 NVL72 (которая обеспечивает около 180 BF16 PFLOPs). Он также обеспечивает в 2,1 раза большую общую пропускную способность памяти, несмотря на использование HBM2E, и более чем в 3,6 раза большую емкость HBM. Машина также обеспечивает в 2,1 раза большую пропускную способность масштабирования вверх и в 5,3 раза большую пропускную способность масштабирования вниз благодаря своим оптическим соединениям.

Однако эти преимущества производительности имеют свою цену: система в 2,3 раза менее энергоэффективна в расчете на FLOP, в 1,8 раза менее эффективна в расчете на ТБ/с пропускной способности памяти и в 1,1 раза менее эффективна в расчете на ТБ памяти HBM по сравнению с Nvidia.

Сравнение GB200 NVL72 от Nvidia и CloudMatrix CM384 от Huawei

Строка 0 - Ячейка 0	ГБ200 NVL72	CloudMatrix CM384	Разница
BF16 плотный PFLOPS	180,0 ПФЛОПС	300,0 ПФЛОПС	1.7x
Емкость HBM	13,8 ТБ	49,2 ТБ	3.6x
Пропускная способность HBM	576,0 ТБ/с	1229.0 ТБ/с	2.1x
Увеличить пропускную способность	518400.0 Гбит/с уни-ди	1075200.0 Гбит/с уни-ди	2.1x
Увеличить размер домена	72.0 графических процессоров	384.0 графических процессоров	5.3x
Масштабирование пропускной способности	28800.0 Гбит/с uni-di	153600.0 Гбит/с уни-ди	5.3x
Мощность системы «все включено»	145 кВт	559 кВт	3.9x
Полная мощность на BF16 плотный FLOP	0,81 Вт/ТЕФЛОРС	1,87 Вт/ТЕФЛОРС	2.3x
Полная мощность на полосу пропускания памяти	251,7 Вт на ТБ/с	455,2 Вт на ТБ/с	1.8x
Полная мощность на единицу объема памяти	10,5 кВт/ТБ	11,4 кВт/ТБ	1.1x

Но это не имеет особого значения, поскольку китайские компании (включая Huawei) в любом случае не могут получить доступ к GB200 NVL72 от Nvidia. Поэтому, если они хотят получить действительно высокую производительность для обучения ИИ, они будут более чем готовы инвестировать в CloudMatrix 384 от Huawei.

В конце концов, средняя цена на электроэнергию в материковом Китае снизилась с $90,70 МВт-ч в 2022 году до $56 МВт-ч в некоторых регионах в 2025 году, поэтому пользователи CM384 от Huawei вряд ли обанкротятся из-за расходов на электроэнергию. Так что для Китая, где энергии в изобилии, но ограничены возможности использования передового кремния, подход Huawei к ИИ, похоже, работает просто отлично.

HiSilicon Ascend 910C: Huawei переходит на двухчиповый процессор

Когда несколько месяцев назад мы впервые столкнулись с процессором Huawei HiSilicon Ascend 910C, это был снимок кристалла его вычислительного чиплета, предположительно произведенного SMIC

Thumbnail: SMIC Semiconductor Manufacturing International Corporation (SMIC) — китайская компания, занимающаяся производством микроэлектроники, крупнейшая микроэлектронная компания континентального Китая. Компания зарегистрирована на Каймановых островах, штаб-квартира расположена в Шанхае (КНР). Основана в 2000 году. Компания в настоящее время имеет наиболее передовое и развитое производство чипов в Китае: она производит СБИС по техпроцессам от 7 нм и начала рисковое производство по 7-нм техпроцессу в конце 2020 года. Википедия

, который имел I/O, который должен был подключаться к его кристаллу I/O. Вот почему мы думали, что это процессор с одним вычислительным чиплетом. Мы ошибались.

По-видимому, HiSilicon Ascend 910C — это двухчиповый процессор с восемью модулями памяти HBM2E и без кристалла ввода-вывода, который напоминает AMD Instinct MI250X и Nvidia B200. Устройство обеспечивает 780 BF16 TFLOPS по сравнению с 383 BF16 TFLOPS у MI250X и 2,25–2,5 BF16 TFLOPS у B200.

Сравнение Nvidia B200 и Huawei Ascend 910C

Строка 0 - Ячейка 0	Nvidia B200 (в GB200)	Huawei Ascend 910C	Разница
BF16 плотный TFLOPS	2500.0 ТФЛОПС	780.0 ТФЛОПС	0,3х
Емкость HBM	192.0 ГБ	128.0 ГБ	0,7х
Пропускная способность HBM	8,0 ТБ/с	3,2 ТБ/с	0,4x
Увеличить пропускную способность	7200.0 Гбит/с уни-ди	2800.0 Гбит/с uni-di	0,4x
Масштабирование пропускной способности	400,0 Гбит/с уни-ди	400,0 Гбит/с уни-ди	1.0x

HiSilicon Ascend 910C был разработан в Китае для крупномасштабных рабочих нагрузок обучения и вывода. Процессор был разработан с использованием передовых инструментов EDA от известных компаний и может быть произведен с использованием технологических процессов класса 7 нм. SemiAnalysis сообщает, что хотя SMIC может производить вычислительные чиплеты для Ascend 910C, подавляющее большинство чиплетов Ascend 910C, используемых Huawei, были изготовлены TSMC с использованием обходных путей с участием сторонних организаций, таких как Sophgo, что позволило Huawei получить пластины, несмотря на ограничения США. Предполагается, что Huawei приобрела достаточно пластин для более чем миллиона процессоров Ascend 910C с 2023 по 2025 год. Тем не менее, по мере улучшения возможностей SMIC, Huawei может передать больше производства на аутсорсинг отечественному литейному заводу.

Ascend 910C использует память HBM2E, большую часть которой получает от Samsung через другого посредника, CoAsia Electronics. CoAsia отправила компоненты HBM2E в Faraday Technology, фирму по проектированию, которая затем работала с SPIL для сборки стеков HBM2E вместе с низкопроизводительными 16-нм логическими кристаллами. Эти сборки технически соответствовали экспортному контролю США, поскольку они не превышали никаких пороговых значений, установленных правилами США. Блоки систем в корпусе (SiP) были отправлены в Китай только для того, чтобы их стеки HBM2E были распаяны для отправки в Huawei, которая затем переустановила их на своих SiP Ascend 910C.

С точки зрения производительности Ascend 910C значительно уступает новейшим графическим процессорам Nvidia B200AI в расчете на один чип, но стратегия проектирования систем Huawei компенсирует это за счет увеличения количества чипов в системе.

Больше процессоров = больше производительности

Действительно, как следует из названия, CloudMatrix 384 — это высокоплотный вычислительный кластер, состоящий из 384 процессоров ИИ Ascend 910C, физически организованных в 16-стоечную систему с 32 ускорителями ИИ на стойку. В этой компоновке 12 стоек вмещают вычислительные модули, а четыре дополнительные стойки выделены для коммутации связи. Как и в архитектуре Nvidia, все Ascend 910C могут взаимодействовать друг с другом, поскольку они соединены между собой с помощью настраиваемой ячеистой сети.

Однако определяющей особенностью CM384 является его исключительная зависимость от оптических каналов для всех внутренних коммуникаций внутри и между стойками. Он включает в себя 6912 линейных подключаемых оптических (LPO) трансиверов, каждый из которых рассчитан на 800 Гбит/с, что приводит к общей внутренней пропускной способности, превышающей 5,5 Пбит/с (687,5 ТБ/с) при низкой задержке и с минимальными потерями целостности сигнала. Система поддерживает как топологии масштабирования вверх, так и топологии масштабирования вниз: масштабирование вверх через полносвязную сеть в пределах 384 процессоров и масштабирование вниз через дополнительные межкластерные соединения, что позволяет развертывать в более крупных гипермасштабных средах, сохраняя при этом тесную вычислительную интеграцию.

С 384 процессорами, CloudMatrix 384 от Huawei обеспечивает 300 ПФЛОПС производительности плотных вычислений BF16, что на 166% выше по сравнению с GB200 NVL72 от Nvidia. Однако вся системная мощность (включая сеть и хранилище) CM384 составляет около 559 кВт, тогда как GB200 NVL72 от Nvidia потребляет 145 кВт.

В результате решение Nvidia обеспечивает в 2,3 раза более высокую энергоэффективность, чем решение Huawei. Тем не менее, как было отмечено выше, если Huawei сможет поставлять свой CloudMatrix 384 в больших объемах, с надлежащим программным обеспечением и поддержкой, последнее, о чем будут беспокоиться ее клиенты, — это энергопотребление их систем.

Источник: Tomshardware.com