Nvidia: Blackwell B200 в 4 раза быстрее H100 при использовании FP4

28 августа 2024, 23:18 / Технологии → Новости / Технологии

Nvidia

NVIDIA Corporation (NASDAQ: NVDA) — американская компания, один из крупнейших разработчиков графических ускорителей и процессоров, а также наборов системной логики. На рынке продукция компании известна под такими торговыми марками как GeForce, nForce, Quadro, Tesla, ION и Tegra. Компания была основана в 1993 году. По состоянию на август 2006 года в корпорации насчитывалось более 8 тысяч сотрудников, работающих в 40 офисах по всему миру. Википедия

опубликовала первые результаты MLPerf 4.1 своего процессора Blackwell B200. Результаты показывают, что графический процессор

Thumbnail: Графический процессор Графический процессор (англ. graphics processing unit, GPU) — отдельное устройство персонального компьютера или игровой приставки, выполняющее графический рендеринг; в начале 2000-х годов графические процессоры стали массово применяться и в других устройствах: планшетные компьютеры, встраиваемые системы, цифровые телевизоры. Современные графические процессоры очень эффективно обрабатывают и отображают компьютерную графику, благодаря специализированной конвейерной архитектуре они намного эффективнее в обработке графической информации, чем типичный центральный процессор. Графический процессор в современных видеокартах (видеоадаптерах) применяется в качестве ускорителя трёхмерной графики. Википедия

Blackwell

обеспечивает производительность в четыре раза выше, чем его предшественник H100 на основе архитектуры Hopper, что подчеркивает позицию Nvidia как лидера в области аппаратного обеспечения ИИ. Однако есть некоторые оговорки и отказы от ответственности, на которые мы должны обратить внимание.

Согласно результатам Nvidia, графический процессор B200 на базе Blackwell обеспечивает 10 755 токенов/секунду на одном графическом процессоре в тесте вывода сервера и 11 264 токенов/секунду в офлайн-эталонном тесте. Беглый взгляд на общедоступные результаты бенчмарка MLPerf Llama 2 70B показывает, что 4-процессорная машина на базе Hopper H100 обеспечивает аналогичные результаты, подтверждая утверждение Nvidia о том, что один процессор Blackwell примерно в 3,7–4 раза быстрее, чем один графический процессор Hopper H100. Но нам нужно разобрать цифры, чтобы лучше их понять.

Генеративный ИИ-бенчмарк MLPerf 4.1 на модели Llama 2 70B (токенов/секунду)
Строка 0 - Ячейка 0	# графических процессоров	Оффлайн	Сервер	на GPU Offline	на сервер GPU
Nvidia B200 180 ГБ HBM3E	1	11264	10755	11264	10755
Nvidia H100 80 ГБ HBM3	4	10700	9522	2675	2381
Nvidia H200 141 ГБ HBM3E	1	4488	4202	4488	4202
Nvidia H200 141 ГБ HBM3E	8	32124	29739	4016	3717

Во-первых, процессор Blackwell от Nvidia использовал точность FP4, поскольку его тензорные ядра пятого поколения поддерживают этот формат, тогда как Hopper-based H100 поддерживает и использует только FP8. Эти различные форматы разрешены рекомендациями MLPerf, но производительность FP4 в Blackwell удваивает пропускную способность FP8, так что это первый важный момент, который следует отметить.

Далее, Nvidia несколько лукавит, используя один B200 вместо четырех H100 GPU. Масштабирование никогда не бывает идеальным, поэтому один GPU, как правило, является чем-то вроде наилучшего сценария для производительности на GPU. Для MLPerf 4.1 не указаны результаты H100 для одного GPU, а есть только один результат B200, так что становится еще больше неопределенности. Однако один H200 достиг 4488 токенов/с, что означает, что B200 всего в 2,5 раза быстрее для этого конкретного сравнения.

Емкость памяти и пропускная способность также являются критическими факторами, и существуют большие различия между поколениями. Тестируемый графический процессор B200 несет 180 ГБ памяти HBM3E

, H100 SXM имеет 80 ГБ HBM (до 96 ГБ в некоторых конфигурациях), а H200 имеет 96 ГБ HBM3 и до 144 ГБ HBM3E. Один результат для одного H200 с 96 ГБ HBM3 достигает только 3114 токенов/с в автономном режиме.

Итак, существуют потенциальные различия в формате чисел, количестве графических процессоров, емкости памяти и конфигурации, которые играют роль в цифре "до 4X". Многие из этих различий просто обусловлены тем, что Blackwell B200 является новым чипом с более новой архитектурой, и все эти вещи играют роль в его конечной производительности.

Возвращаясь к H200 от Nvidia с 141 ГБ памяти HBM3E, он также показал исключительные результаты не только в бенчмарке генеративного ИИ с большой языковой моделью Llama 2 70B, но и в каждом отдельном тесте в категории центров обработки данных. По понятным причинам он оказался значительно быстрее H100 в тестах, использующих емкость памяти GPU.

На данный момент Nvidia поделилась производительностью своего B200 только в бенчмарке генеративного ИИ MLPerf 4.1 на модели Llama 2 70B. То ли это из-за того, что он все еще работает над настройкой, то ли из-за других факторов, мы не можем сказать, но MLPerf 4.1 имеет девять основных дисциплин, и на данный момент мы можем только догадываться, как Blackwell B200 справится с другими тестами.

Источник: Tomshardware.com