Кластер Huawei CloudMatrix 384 превзошёл чипы Nvidia в тестах с моделью DeepSeek R1
Huawei использует «метод грубой силы» в гонке искусственного интеллекта, и, судя по последним данным, этот подход работает. Кластер CloudMatrix 384, по заявлениям компании и независимых исследователей, превзошёл процессоры Nvidia в тестах с моделью DeepSeek R1.
Совместный технический документ Huawei и китайского стартапа SiliconFlow свидетельствует, что кластер на базе чипов Ascend 910C обогнал по производительности систему с чипами Nvidia H800 при работе с языковой моделью DeepSeek R1 (671 миллиард параметров). Для сравнения использовался и флагманский H100, но в Китае он недоступен из-за экспортных ограничений.
«Цель Huawei — переосмыслить основы инфраструктуры ИИ», — отмечается в исследовании. Учёные подчёркивают, что публикация призвана укрепить доверие к китайским NPU.
CloudMatrix 384 — это масштабное решение, объединяющее 384 NPU Ascend 910C, 192 CPU и 16 серверных стоек. Все соединения оптические, что обеспечивает высокую скорость передачи данных. На бумаге кластер демонстрирует 300 PFLOPS (BF16) против 180 PFLOPS у системы Nvidia GB200 NVL72. Программное обеспечение Huawei также показало преимущество: CloudMatrix-Infer генерирует 4,45 токена в секунду на TFLOPS при предзаполнении запросов и 1,29 токена/с на TFLOPS при формировании ответов.
Однако у решения есть серьёзный недостаток — энергопотребление. CloudMatrix потребляет 559 кВт, что в четыре раза больше, чем у аналога от Nvidia (145 кВт). Энергоэффективность китайской системы примерно в 2,3 раза ниже.
Для китайских клиентов, лишённых доступа к решениям Nvidia, CloudMatrix остаётся привлекательным вариантом благодаря высокой производительности и развитому ПО. Как отметил глава Nvidia Дженсен Хуанг на VivaTech в начале июня, Huawei пока отстаёт по производительности на один чип, но в ИИ «можно просто добавить больше компьютеров».
Источник: Tomshardware.com
0 комментариев