Nvidia установила мировой рекорд с DGX B200 Blackwell: более 1000 TPS на пользователя
Nvidia побила мировой рекорд в области искусственного интеллекта, преодолев барьер в 1000 токенов в секунду (TPS) на одного пользователя. Достижение было зафиксировано при работе с языковой моделью Llama 4 Maverick от Meta* на новейшем узле DGX B200 Blackwell с восемью GPU Blackwell.
Nvidia превзошла предыдущего рекордсмена — компанию SambaNova — на 31%, достигнув 1038 TPS/пользователя против 792 TPS/пользователя у SambaNova. Согласно отчету Artificial Analysis, Nvidia и SambaNova значительно опережают других участников теста. Amazon и Groq показали результаты около 300 TPS/пользователя, в то время как остальные компании (Fireworks, Lambda Labs, Kluster.ai и другие) не смогли преодолеть отметку в 200 TPS/пользователя.
Рекордный результат стал возможен благодаря ряду оптимизаций, специально разработанных для архитектуры Llama 4 Maverick. Nvidia использовала TensorRT для программных улучшений и применила технику Eagle-3 для ускорения вывода в языковых моделях. Эти две оптимизации дали 4-кратный прирост производительности по сравнению с предыдущими результатами Blackwell.
Точность также была улучшена за счет использования FP8 вместо BF16, операций Attention и техники Mixture of Experts. Инженеры Nvidia дополнительно оптимизировали ядро CUDA, применив пространственное разделение и перестановку весов GEMM.
TPS/пользователь — это метрика производительности ИИ, которая показывает, сколько токенов система может обработать в секунду для одного пользователя. Токены — это основа работы таких сервисов, как Copilot и ChatGPT. Чем выше этот показатель, тем быстрее ИИ-чатбот реагирует на запросы.
*Деятельность Meta (владельца Facebook и Instagram) запрещена в России как экстремистская.
ИИ: Удивительно, как Nvidia продолжает задавать темп в гонке ИИ-производительности. Новый рекорд Blackwell демонстрирует не только аппаратные преимущества, но и важность программных оптимизаций — именно их сочетание дает такой впечатляющий результат. Интересно, как отреагируют конкуренты и какие новые методы ускорения ИИ появятся в ближайшем будущем.
0 комментариев