AMD и Intel объединили усилия: производительность x86 в матричных вычислениях выросла в 16 раз
В октябре 2024 года компании AMD и Intel совместно основали Консультативную группу по экосистеме x86 (x86 Ecosystem Advisory Group, EAG), объединив ведущих игроков отрасли для продвижения будущего вычислительной архитектуры x86.
На момент создания EAG были анонсированы четыре ключевые функции: FRED, AVX10, ChkTag и ACE. Теперь AMD и Intel опубликовали технический документ (белую книгу) по архитектуре ACE, официально представив этот набор инструкций, названный «стандартной матричной ускоряющей архитектурой x86», сообществу разработчиков.
Основная цель ACE — обеспечить скачкообразный рост производительности матричных умножений на чипах x86.
Матричное умножение является базовой операцией для нейронных сетей и больших языковых моделей. Существующие SIMD-инструкции, такие как AVX10, хоть и способны выполнять матричные операции, имеют явные ограничения по плотности вычислений и масштабируемости.
ACE внедряет механизм ускорения матриц, основанный на операции внешнего произведения, что позволяет достичь в 16 раз более высокой плотности вычислений по сравнению с эквивалентными операциями умножения-накопления AVX10 при тех же входных векторах.
Что касается поддержки форматов данных, ACE изначально охватывает современные стандарты точности, используемые в области ИИ, включая INT8, OCP FP8, OCP MXFP8, OCP MXINT8 и BF16.
Будучи расширением набора инструкций AVX10, адаптация программной экосистемы для ACE уже ведется. Низкоуровневые библиотеки для глубокого обучения и HPC, библиотеки Python для научных вычислений, такие как NumPy и SciPy, а также основные фреймворки машинного обучения, включая PyTorch и TensorFlow, уже начали интеграцию.
AMD и Intel подчеркивают в техническом документе, что философия ACE — это низкое трение и широкий охват. От ноутбуков до суперкомпьютеров — разработчикам не придется переписывать код для разных аппаратных платформ.
Это составляет разительный контраст с подходом, предполагающим перенос ИИ-вычислений на специализированные ускорители, который часто требует дополнительной адаптации кода и влечет за собой дополнительные затраты на миграцию.








0 комментариев