Разработчик под псевдонимом Stormrage34 выпустил новую версию форка llama.cpp под названием TurboQuant-HIP v0.3.0, которая демонстрирует впечатляющий прирост производительности при работе с MoE-моделями на видеокарте AMD RX 6800 XT. Благодаря переписанным ядрам матричного умножения скорость
Читать дальше →