Nvidia: Blackwell B200 в 4 раза быстрее H100 при использовании FP4
NVIDIA Corporation (NASDAQ: NVDA) — американская компания, один из крупнейших разработчиков графических ускорителей и процессоров, а также наборов системной логики. На рынке продукция компании известна под такими торговыми марками как GeForce, nForce, Quadro, Tesla, ION и Tegra. Компания была основана в 1993 году. По состоянию на август 2006 года в корпорации насчитывалось более 8 тысяч сотрудников, работающих в 40 офисах по всему миру. Википедия
Читайте также:Ускоритель TinyBox на базе AMD 7900XTX и Nvidia RTX 4090 теперь доступен по цене от 15 тыс. долларов СШАГрафический процессор NVIDIA RTX 5060 «Blackwell» с 8 ГБ памяти GDDR7Рост акций Nvidia делает сотрудников миллионерамиNvidia демонстрирует процесс установки серверов BlackwellNVIDIA GeForce NOW получает Black Myth: Wukong и еще 24 игры на этой неделе
Графический процессор (англ. graphics processing unit, GPU) — отдельное устройство персонального компьютера или игровой приставки, выполняющее графический рендеринг; в начале 2000-х годов графические процессоры стали массово применяться и в других устройствах: планшетные компьютеры, встраиваемые системы, цифровые телевизоры.
Современные графические процессоры очень эффективно обрабатывают и отображают компьютерную графику, благодаря специализированной конвейерной архитектуре они намного эффективнее в обработке графической информации, чем типичный центральный процессор.
Графический процессор в современных видеокартах (видеоадаптерах) применяется в качестве ускорителя трёхмерной графики. Википедия
Читайте также:Графический процессор NVIDIA RTX 5060 «Blackwell» с 8 ГБ памяти GDDR7Nvidia демонстрирует процесс установки серверов BlackwellFoxconn: графические процессоры Blackwell от Nvidia будут доступны ограниченноПартнеры Nvidia косвенно подтверждают задержку графического процессора Blackwell B200Графические процессоры Nvidia Blackwell предположительно задерживаются из-за недостатков конструкции
Согласно результатам Nvidia, графический процессор B200 на базе Blackwell обеспечивает 10 755 токенов/секунду на одном графическом процессоре в тесте вывода сервера и 11 264 токенов/секунду в офлайн-эталонном тесте. Беглый взгляд на общедоступные результаты бенчмарка MLPerf Llama 2 70B показывает, что 4-процессорная машина на базе Hopper H100 обеспечивает аналогичные результаты, подтверждая утверждение Nvidia о том, что один процессор Blackwell примерно в 3,7–4 раза быстрее, чем один графический процессор Hopper H100. Но нам нужно разобрать цифры, чтобы лучше их понять.
Строка 0 - Ячейка 0 | # графических процессоров | Оффлайн | Сервер | на GPU Offline | на сервер GPU |
Nvidia B200 180 ГБ HBM3E | 1 | 11264 | 10755 | 11264 | 10755 |
Nvidia H100 80 ГБ HBM3 | 4 | 10700 | 9522 | 2675 | 2381 |
Nvidia H200 141 ГБ HBM3E | 1 | 4488 | 4202 | 4488 | 4202 |
Nvidia H200 141 ГБ HBM3E | 8 | 32124 | 29739 | 4016 | 3717 |
Во-первых, процессор Blackwell от Nvidia использовал точность FP4, поскольку его тензорные ядра пятого поколения поддерживают этот формат, тогда как Hopper-based H100 поддерживает и использует только FP8. Эти различные форматы разрешены рекомендациями MLPerf, но производительность FP4 в Blackwell удваивает пропускную способность FP8, так что это первый важный момент, который следует отметить.
Далее, Nvidia несколько лукавит, используя один B200 вместо четырех H100 GPU. Масштабирование никогда не бывает идеальным, поэтому один GPU, как правило, является чем-то вроде наилучшего сценария для производительности на GPU. Для MLPerf 4.1 не указаны результаты H100 для одного GPU, а есть только один результат B200, так что становится еще больше неопределенности. Однако один H200 достиг 4488 токенов/с, что означает, что B200 всего в 2,5 раза быстрее для этого конкретного сравнения.
Читайте также:Micron расширит производство памяти HBM3E по всему миру, чтобы увеличить долю рынка HBMГендиректор Nvidia: Samsung HBM3e не готов к сертификацииГлава Nvidia заявил о необходимости доработки памяти HBM3E от SamsungSamsung опровергает информацию о том, что её память HBM3E не подходит для Nvidia
Итак, существуют потенциальные различия в формате чисел, количестве графических процессоров, емкости памяти и конфигурации, которые играют роль в цифре "до 4X". Многие из этих различий просто обусловлены тем, что Blackwell B200 является новым чипом с более новой архитектурой, и все эти вещи играют роль в его конечной производительности.
Возвращаясь к H200 от Nvidia с 141 ГБ памяти HBM3E, он также показал исключительные результаты не только в бенчмарке генеративного ИИ с большой языковой моделью Llama 2 70B, но и в каждом отдельном тесте в категории центров обработки данных. По понятным причинам он оказался значительно быстрее H100 в тестах, использующих емкость памяти GPU.
На данный момент Nvidia поделилась производительностью своего B200 только в бенчмарке генеративного ИИ MLPerf 4.1 на модели Llama 2 70B. То ли это из-за того, что он все еще работает над настройкой, то ли из-за других факторов, мы не можем сказать, но MLPerf 4.1 имеет девять основных дисциплин, и на данный момент мы можем только догадываться, как Blackwell B200 справится с другими тестами.
Источник: Tomshardware.com
0 комментариев