CloudMatrix от Huawei обошёл Nvidia GB200
Иску́сственный интелле́кт (ИИ; англ. artificial intelligence, AI) — свойство искусственных интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека (не следует путать с искусственным сознанием); наука и технология создания интеллектуальных машин, особенно интеллектуальных компьютерных программ.
Искусственный интеллект связан со сходной задачей использования компьютеров для понимания человеческого интеллекта, но не обязательно ограничивается биологически правдоподобными методами.
Существующие на сегодня интеллектуальные системы имеют довольно узкие области применения. Википедия
Читайте также:Micron реорганизует подразделения для развития ИИDUG Nomad — мобильный центр обработки данных с иммерсионным охлаждением для периферийного ИИADATA усиливает позиции на рынке корпоративного хранения данныхЕС запускает инициативу «ИИ-гигафабрика»Разработчики Total War: Warhammer 3 сообщили о будущих улучшениях искусственного интеллекта
Huawei Technologies Co. Ltd. (кит. трад. Википедия
Читайте также:В Ascend 910C найдены иностранные деталиВ чипах Huawei Ascend 910C нашли детали TSMCСистема Huawei CloudMatrix 384 превосходит NVIDIA GB200 NVL72TSMC грозит штраф в размере 1 млрд долларов США за производство чипов для Huawei, занесенной в черный списокSoC Huawei/HiSilicon Kirin «X90» упоминается в документе китайского правительства
NVIDIA Corporation (NASDAQ: NVDA) — американская компания, один из крупнейших разработчиков графических ускорителей и процессоров, а также наборов системной логики. На рынке продукция компании известна под такими торговыми марками как GeForce, nForce, Quadro, Tesla, ION и Tegra. Компания была основана в 1993 году. По состоянию на август 2006 года в корпорации насчитывалось более 8 тысяч сотрудников, работающих в 40 офисах по всему миру. Википедия
Читайте также:Драйверы Nvidia улучшили производительность RTX 50 на 6–8 %Драйвер NVIDIA 576.02 WHQL увеличивает производительность на 8%MSI выпустила игровые ПК на базе RTX 50Тест видеокарты NVIDIA GeForce RTX 5060 Ti 8 ГБNvidia отрицает поставки GPU в Китай
На первый взгляд
CloudMatrix 384 от Huawei — это стоечная система искусственного интеллекта, состоящая из 384 процессоров Ascend 910C, организованных в полностью оптическую, всеобъемлющую ячеистую сеть. Система охватывает 16 стоек, включая 12 вычислительных стоек, вмещающих 32 ускорителя каждая, и четыре сетевые стойки, обеспечивающие высокоскоростные соединения с использованием 6912 оптических трансиверов 800G LPO.
В отличие от традиционных систем, использующих медные провода для соединений, CloudMatrix полностью полагается на оптику как для внутри-, так и для межстоечного соединения, обеспечивая чрезвычайно высокую совокупную пропускную способность связи. CloudMatrix 384 — это машина корпоративного класса, которая отличается отказоустойчивостью и разработана для масштабируемости.
С точки зрения производительности, CloudMatrix 384 обеспечивает около 300 PFLOPs плотных вычислений BF16, что почти в два раза превышает пропускную способность системы Nvidia GB200 NVL72 (которая обеспечивает около 180 BF16 PFLOPs). Он также обеспечивает в 2,1 раза большую общую пропускную способность памяти, несмотря на использование HBM2E, и более чем в 3,6 раза большую емкость HBM. Машина также обеспечивает в 2,1 раза большую пропускную способность масштабирования вверх и в 5,3 раза большую пропускную способность масштабирования вниз благодаря своим оптическим соединениям.
Однако эти преимущества производительности имеют свою цену: система в 2,3 раза менее энергоэффективна в расчете на FLOP, в 1,8 раза менее эффективна в расчете на ТБ/с пропускной способности памяти и в 1,1 раза менее эффективна в расчете на ТБ памяти HBM по сравнению с Nvidia.
Сравнение GB200 NVL72 от Nvidia и CloudMatrix CM384 от Huawei
Строка 0 - Ячейка 0 | ГБ200 NVL72 | CloudMatrix CM384 | Разница |
BF16 плотный PFLOPS | 180,0 ПФЛОПС | 300,0 ПФЛОПС | 1.7x |
Емкость HBM | 13,8 ТБ | 49,2 ТБ | 3.6x |
Пропускная способность HBM | 576,0 ТБ/с | 1229.0 ТБ/с | 2.1x |
Увеличить пропускную способность | 518400.0 Гбит/с уни-ди | 1075200.0 Гбит/с уни-ди | 2.1x |
Увеличить размер домена | 72.0 графических процессоров | 384.0 графических процессоров | 5.3x |
Масштабирование пропускной способности | 28800.0 Гбит/с uni-di | 153600.0 Гбит/с уни-ди | 5.3x |
Мощность системы «все включено» | 145 кВт | 559 кВт | 3.9x |
Полная мощность на BF16 плотный FLOP | 0,81 Вт/ТЕФЛОРС | 1,87 Вт/ТЕФЛОРС | 2.3x |
Полная мощность на полосу пропускания памяти | 251,7 Вт на ТБ/с | 455,2 Вт на ТБ/с | 1.8x |
Полная мощность на единицу объема памяти | 10,5 кВт/ТБ | 11,4 кВт/ТБ | 1.1x |
Но это не имеет особого значения, поскольку китайские компании (включая Huawei) в любом случае не могут получить доступ к GB200 NVL72 от Nvidia. Поэтому, если они хотят получить действительно высокую производительность для обучения ИИ, они будут более чем готовы инвестировать в CloudMatrix 384 от Huawei.
В конце концов, средняя цена на электроэнергию в материковом Китае снизилась с $90,70 МВт-ч в 2022 году до $56 МВт-ч в некоторых регионах в 2025 году, поэтому пользователи CM384 от Huawei вряд ли обанкротятся из-за расходов на электроэнергию. Так что для Китая, где энергии в изобилии, но ограничены возможности использования передового кремния, подход Huawei к ИИ, похоже, работает просто отлично.
HiSilicon Ascend 910C: Huawei переходит на двухчиповый процессор
Semiconductor Manufacturing International Corporation (SMIC) — китайская компания, занимающаяся производством микроэлектроники, крупнейшая микроэлектронная компания континентального Китая.
Компания зарегистрирована на Каймановых островах, штаб-квартира расположена в Шанхае (КНР). Основана в 2000 году.
Компания в настоящее время имеет наиболее передовое и развитое производство чипов в Китае: она производит СБИС по техпроцессам от 7 нм и начала рисковое производство по 7-нм техпроцессу в конце 2020 года. Википедия
Читайте также:SMIC завершит 5-нм процесс в 2025 годуВласти Тайваня обвиняют SMIC и ее союзников в браконьерстве инженеровКонгрессмен США обвинил SMIC в производстве 7-нм чипов для Китая в нарушение санкцийSMIC сообщает результаты третьего квартала 2024 годаПроблемы с чипами ИИ у Huawei: отчет
По-видимому, HiSilicon Ascend 910C — это двухчиповый процессор с восемью модулями памяти HBM2E и без кристалла ввода-вывода, который напоминает AMD Instinct MI250X и Nvidia B200. Устройство обеспечивает 780 BF16 TFLOPS по сравнению с 383 BF16 TFLOPS у MI250X и 2,25–2,5 BF16 TFLOPS у B200.
Сравнение Nvidia B200 и Huawei Ascend 910C
Строка 0 - Ячейка 0 | Nvidia B200 (в GB200) | Huawei Ascend 910C | Разница |
BF16 плотный TFLOPS | 2500.0 ТФЛОПС | 780.0 ТФЛОПС | 0,3х |
Емкость HBM | 192.0 ГБ | 128.0 ГБ | 0,7х |
Пропускная способность HBM | 8,0 ТБ/с | 3,2 ТБ/с | 0,4x |
Увеличить пропускную способность | 7200.0 Гбит/с уни-ди | 2800.0 Гбит/с uni-di | 0,4x |
Масштабирование пропускной способности | 400,0 Гбит/с уни-ди | 400,0 Гбит/с уни-ди | 1.0x |
HiSilicon Ascend 910C был разработан в Китае для крупномасштабных рабочих нагрузок обучения и вывода. Процессор был разработан с использованием передовых инструментов EDA от известных компаний и может быть произведен с использованием технологических процессов класса 7 нм. SemiAnalysis сообщает, что хотя SMIC может производить вычислительные чиплеты для Ascend 910C, подавляющее большинство чиплетов Ascend 910C, используемых Huawei, были изготовлены TSMC с использованием обходных путей с участием сторонних организаций, таких как Sophgo, что позволило Huawei получить пластины, несмотря на ограничения США. Предполагается, что Huawei приобрела достаточно пластин для более чем миллиона процессоров Ascend 910C с 2023 по 2025 год. Тем не менее, по мере улучшения возможностей SMIC, Huawei может передать больше производства на аутсорсинг отечественному литейному заводу.
Ascend 910C использует память HBM2E, большую часть которой получает от Samsung через другого посредника, CoAsia Electronics. CoAsia отправила компоненты HBM2E в Faraday Technology, фирму по проектированию, которая затем работала с SPIL для сборки стеков HBM2E вместе с низкопроизводительными 16-нм логическими кристаллами. Эти сборки технически соответствовали экспортному контролю США, поскольку они не превышали никаких пороговых значений, установленных правилами США. Блоки систем в корпусе (SiP) были отправлены в Китай только для того, чтобы их стеки HBM2E были распаяны для отправки в Huawei, которая затем переустановила их на своих SiP Ascend 910C.
С точки зрения производительности Ascend 910C значительно уступает новейшим графическим процессорам Nvidia B200AI в расчете на один чип, но стратегия проектирования систем Huawei компенсирует это за счет увеличения количества чипов в системе.
Больше процессоров = больше производительности
Действительно, как следует из названия, CloudMatrix 384 — это высокоплотный вычислительный кластер, состоящий из 384 процессоров ИИ Ascend 910C, физически организованных в 16-стоечную систему с 32 ускорителями ИИ на стойку. В этой компоновке 12 стоек вмещают вычислительные модули, а четыре дополнительные стойки выделены для коммутации связи. Как и в архитектуре Nvidia, все Ascend 910C могут взаимодействовать друг с другом, поскольку они соединены между собой с помощью настраиваемой ячеистой сети.
Однако определяющей особенностью CM384 является его исключительная зависимость от оптических каналов для всех внутренних коммуникаций внутри и между стойками. Он включает в себя 6912 линейных подключаемых оптических (LPO) трансиверов, каждый из которых рассчитан на 800 Гбит/с, что приводит к общей внутренней пропускной способности, превышающей 5,5 Пбит/с (687,5 ТБ/с) при низкой задержке и с минимальными потерями целостности сигнала. Система поддерживает как топологии масштабирования вверх, так и топологии масштабирования вниз: масштабирование вверх через полносвязную сеть в пределах 384 процессоров и масштабирование вниз через дополнительные межкластерные соединения, что позволяет развертывать в более крупных гипермасштабных средах, сохраняя при этом тесную вычислительную интеграцию.
С 384 процессорами, CloudMatrix 384 от Huawei обеспечивает 300 ПФЛОПС производительности плотных вычислений BF16, что на 166% выше по сравнению с GB200 NVL72 от Nvidia. Однако вся системная мощность (включая сеть и хранилище) CM384 составляет около 559 кВт, тогда как GB200 NVL72 от Nvidia потребляет 145 кВт.
В результате решение Nvidia обеспечивает в 2,3 раза более высокую энергоэффективность, чем решение Huawei. Тем не менее, как было отмечено выше, если Huawei сможет поставлять свой CloudMatrix 384 в больших объемах, с надлежащим программным обеспечением и поддержкой, последнее, о чем будут беспокоиться ее клиенты, — это энергопотребление их систем.
Источник: Tomshardware.com
0 комментариев