NVIDIA DGX Spark работает на половине мощности и производительности
Система NVIDIA DGX Spark, созданная как идеальное решение для локального и быстрого прототипирования ИИ, по сообщениям, работает на половине ожидаемой мощности и производительности. Джон Кармак, основатель компании Keen Technologies, ориентированной на ИИ, и бывший технический директор Oculus VR, утверждает, что мини-ПК DGX Spark не соответствует заявленным характеристикам. NVIDIA указывает, что система DGX Spark потребляет 240 Вт, однако тесты Кармака показывают, что устройство потребляет лишь около 100 Вт, что фактически вдвое снижает энергопотребление и производительность.
Пиковая пропускная способность DGX Spark должна составлять приблизительно 31 терафлопс для FP32 и около 1000 TOPS при использовании формата пониженной точности NVFP4 от NVIDIA. При вычислениях с плотностью BF16 система должна достигать 125 терафлопс, но эти цели не выполняются. Измеренная производительность составляет около 480 терафлопс при FP4 и всего около 60 терафлопс при BF16.
После нескольких задержек NVIDIA DGX Spark наконец-то попала к разработчикам. Однако многие сообщают о программных и микропрограммных проблемах со стороны NVIDIA. Также могут присутствовать проблемы с тепловым дросселированием, из-за которых чип снижает частоту и напряжение для предотвращения перегрева. В некоторых случаях система перезагружалась, возможно, из-за недостаточного охлаждения. Система на кристалле GB10 рассчитана на TDP 140 Вт, а конфигурация с 128 ГБ LPDDR5X может добавлять ещё несколько десятков ватт. Следовательно, энергопотребление в 100 Вт для DGX Spark кажется нереалистичным. Остаётся неясным, решит ли эти проблемы обновление программного обеспечения или микропрограммы, или же NVIDIA предложит решение для дополнительного охлаждения для своего устройства стоимостью 3999 долларов США (~320000 рублей), если проблемы с перегревом сохранятся.
NVIDIA заявляет, что DGX Spark может достичь одного петафлопса FP4, но это зависит от структурированной разреженности — техники, которая игнорирует нули в нейронной сети. Если отключить эту функцию, как это делается в большинстве стандартных моделей, машина работает примерно на половине заявленной скорости, что соответствует недавно наблюдаемым показателям, так что это также может быть проблемой. Чип сочетает в себе кристалл Arm CPU от MediaTek с кристаллом GPU Blackwell в 2,5D-корпусе, изготовленном по 3 нм технологическому процессу TSMC. Со стороны CPU он оснащён 20 ядрами Arm v9.2, разделёнными на два кластера по десять ядер, каждый кластер поддерживается общим кэшем L3 объёмом 16 МБ (всего 32 МБ), а каждое ядро имеет свой собственный кэш L2. Подсистема памяти представляет собой унифицированную конфигурацию LPDDR5X-9400 на 256-битной шине, поддерживающую до 128 ГБ и обеспечивающую приблизительно 301 ГБ/с необработанной пропускной способности для пакета. Высокоскоростной ввод-вывод сосредоточен на кристалле CPU, где NVMe-накопители и периферийные устройства используют линии PCIe, а сетевой адаптер ConnectX-7 подключён через ссылку PCIe Gen 5 x8 для сетевого взаимодействия между несколькими устройствами.
Источник: Джон Кармак









0 комментариев