Процессорные гиганты из Китая: Loongson представила амбициозный план развития GPU с троекратным скачком производительности
Помимо дорожной карты CPU, компания Loongson (龙芯) на недавнем отчётном собрании также раскрыла планы по развитию собственных GPGPU-видеокарт. Разработка собственного GPU ведётся уже некоторое время, и пока что их производительность сопоставима с AMD Radeon RX 550.
Эта видеокарта, получившая кодовое название Loongson 9A1000, уже отправлена в производство (tape-out). Ожидается, что образцы появятся во втором квартале текущего года. 9A1000 — это первый специализированный GPGPU-чип Loongson, предназначенный для использования в видеокартах и ускорителях ИИ.
Ключевые характеристики 9A1000:
- Производительность на уровне AMD RX 550, поддержка OpenGL 4.0.
- Поддержка терминальных AI-вычислений: OpenCL 3.0, поддержка инференса CUDA, производительность INT8 — 32-40 TOPS.
- Встроенный видеоблок с поддержкой кодеков H.264 и H.265.
По словам Ху Вэйу (胡伟武), Loongson придерживается стратегии независимых разработок и итеративной оптимизации технологий:
- Loongson 2K3000 уже выпущен, он интегрирует ядро LG200 второго поколения.
- 9A1000 — это недорогой GPGPU с ядром LG210, производительность на уровне RX 550, производительность инференса 32-40 TOPS.
- 9A2000 — среднепроизводительный GPGPU с ядром LG300, с полной функциональностью (поддержка BF16 и других алгоритмов). Производительность в 4 раза выше, чем у предшественника, с использованием двухкристальной упаковки. Ожидается в 2027 году.
- Далее последует высокопроизводительный GPGPU 9A3000, который будет использовать техпроцесс Xnm и «наращивать» характеристики, обеспечив повышение производительности в 3-5 раз (включая рост тактовой частоты).
Судя по опубликованной информации, GPU Loongson совершит тройной скачок. Текущий 9A1000 по производительности находится на уровне RX 550 (архитектура GCN 4.0 на техпроцессе 14 нм, производительность FP32 около 1,2 TFLOPS). Компания заявляет, что 9A2000 будет в 4 раза быстрее, а с учётом двухкристальной упаковки это означает потенциальное 8-кратное увеличение производительности, то есть более 10 TFLOPS. Такой уровень сопоставим с RX 5700.
Что касается 9A3000, то повышение производительности ещё в 3-5 раз выведет его на уровень 30-50 TFLOPS. Это соответствует диапазону от RX 7700 до RX 7900. Для сравнения, производительность FP32 у RTX 5090 составляет около 100 TFLOPS.
Однако стоит отметить, что в этих данных много неопределённости. Главным образом потому, что заявленное Loongson «кратное увеличение производительности» не имеет чёткого эталона для сравнения. Все оценки производительности основаны на анализе доступных данных и призваны дать представление о потенциальных возможностях будущих продуктов Loongson.








0 комментариев