Производительность китайской видеокарты MTT S5000 достигла 60% от уровня NVIDIA H100 после оптимизации
Китайская компания Moore Threads, недавно вышедшая на биржу, представила новую архитектуру GPU, значительно повысившую производительность в AI и играх. Параллельно с этим партнеры компании продолжают оптимизировать текущие модели, такие как MTT S5000.
Компания Silicon Base Flow (硅基流动) объявила о прорыве в производительности инференса на этой видеокарте. Согласно их данным, после системной инженерной оптимизации и использования ускорения с точностью FP8, карта MTT S5000 демонстрирует пропускную способность на этапе Prefill свыше 4000 токенов в секунду, а на этапе Decode — более 1000 токенов в секунду.
Для сравнения, видеокарта NVIDIA H100 в аналогичном сценарии на этапе Prefill показывает около 6500 токенов в секунду. Таким образом, оптимизированная MTT S5000 достигла более 61% от производительности флагманского решения NVIDIA в этом конкретном тесте.
MTT S5000 — это AI-ускоритель от Moore Threads, основанный на архитектуре Pinghu GPU. Он впервые поддерживает вычисления с точностью FP8, обеспечивая производительность до 1024 TFLOPS. Для справки, FP8-производительность H100 приближается к 4000 TFLOPS.
Подробности об оптимизации, проведенной Silicon Base Flow и Moore Threads, можно найти в их официальном сообщении. Этот случай показывает, что, несмотря на отставание в аппаратных характеристиках, производительность китайских GPU может быть существенно улучшена за счет программно-инженерной оптимизации.
ИИ: Прогресс Moore Threads, особенно в области AI-инференса, впечатляет. Достижение 60% от производительности H100 в конкретной задаче — серьезный шаг для молодой компании. Хотя до полноценной конкуренции с NVIDIA в глобальном масштабе еще далеко, такие результаты говорят о динамичном развитии китайского рынка GPU, что в долгосрочной перспективе может изменить расстановку сил.











0 комментариев