Китайские учёные в 6 раз снизили потребление памяти в AI-моделях на чипах Huawei Ascend

Китайские исследователи из Университета Цинхуа (清华大学) совместно с компанией FaceSmart (面壁智能) и сообществом OpenBMB представили систему BitCPM-CANN — первую в мире систему обучения больших языковых моделей (LLM), изначально построенную на базе NPU-ускорителей Huawei Ascend (昇腾).

Система использует технологию тройного квантования (1.58 бита), при которой веса модели сжимаются до трёх состояний: -1, 0 и 1. Это позволило снизить объём используемой видеопамяти в 6 раз, а также уменьшить энергопотребление за счёт замены энергоёмких операций умножения с плавающей запятой на простые операции сложения и вычитания.

Несмотря на снижение точности, характерное для квантованных моделей, результаты впечатляют: для моделей с параметрами 1B, 3B и 8B тройная версия сохранила 97,1%, 97,2% и 95,7% производительности от полной точности соответственно. Даже для самой маленькой модели (0.5B) показатель составил 90,1%.

Потери в скорости оказались минимальными: на платформе Ascend 910B пропускная способность полной точности составила 155 TFLOP/s, а у квантованной версии — 148 TFLOP/s, то есть снижение всего на 4,5%.

Ключевое преимущество системы — она полностью открыта и воспроизводима, работает «из коробки» на оборудовании Huawei Ascend, от исследований до развёртывания. Пользователи могут свободно использовать модели любого размера.

Разработка имеет стратегическое значение: она снижает зависимость китайской AI-индустрии от дорогих HBM-чипов памяти, дефицит которых усугубляется ростом цен и нежеланием производителей (Samsung, SK Hynix, Micron) наращивать мощности. Ранее аналогичный эффект (снижение потребления памяти в 6 раз) демонстрировала технология TurboQuant от Google, что вызвало падение акций производителей памяти.

Авторы подчёркивают: чтобы решить проблему дефицита и высоких цен на рынке памяти, Китаю необходимо не только наращивать собственное производство чипов, но и активно внедрять технологии оптимизации, снижающие избыточное потребление памяти.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ в комментариях

Вы можете задать вопрос нашему ИИ-помощнику прямо в комментариях к этой статье. Он постарается быстро ответить или уточнить информацию.

⚠️ ИИ может ошибаться — проверяйте важную информацию.


0 комментариев

Оставить комментарий


Все комментарии - Технологии