Графические процессоры используют память накопителей PCIe

2 июля 2024, 16:09 / Технологии → Новости / Технологии

Современные графические процессоры для приложений искусственного интеллекта и высокопроизводительных вычислений поставляются с ограниченным объемом встроенной в устройство памяти с высокой пропускной способностью (HBM), что ограничивает их производительность в задачах искусственного интеллекта и других рабочих нагрузках. Тем не менее, новая технология позволит компаниям расширить объем памяти графического процессора, добавляя больше памяти, подключенной к шине PCIe

Thumbnail: PCI Express PCI Express (Peripheral Component Interconnect Express), или PCIe, или PCI-e (также известная как 3GIO for 3rd Generation I/O; не путать с PCI-X и PXI) — компьютерная шина (хотя на физическом уровне шиной не является, будучи соединением типа «точка-точка»), использующая программную модель шины PCI и высокопроизводительный физический протокол, основанный на последовательной передаче данных. Разработка стандарта PCI Express была начата фирмой Intel после отказа от шины InfiniBand. Официально первая базовая спецификация PCI Express появилась в июле 2002 года. Развитием стандарта PCI Express занимается организация PCI Special Interest Group. Википедия

, вместо того, чтобы полностью ограничиваться встроенной в устройство памятью — она даже позволяет использовать твердотельные накопители для расширения объема памяти. Компания Panmnesia, поддерживаемая известным южнокорейским исследовательским институтом KAIST, разработала CXL IP с малой задержкой, которую можно использовать для расширения памяти графического процессора с помощью расширителей памяти CXL

Требования к памяти для более продвинутых наборов данных для обучения ИИ быстро растут, а это означает, что компаниям, занимающимся ИИ, приходится либо покупать новые графические процессоры, либо использовать менее сложные наборы данных, либо использовать память ЦП в ущерб производительности. Хотя CXL — это протокол, который формально работает поверх канала PCIe, что позволяет пользователям подключать больше памяти к системе через шину PCIe, технология должна распознаваться ASIC и ее подсистемой, поэтому достаточно просто добавить контроллер CXL. недостаточно, чтобы технология работала, особенно на графическом процессоре.

Panmnesia столкнулась с трудностями при интеграции CXL для расширения памяти графического процессора из-за отсутствия логической структуры CXL и подсистем, поддерживающих конечные точки DRAM и/или SSD в графических процессорах. Кроме того, подсистемы кэша и памяти графического процессора не распознают никаких расширений, кроме унифицированной виртуальной памяти (UVM), которая имеет тенденцию работать медленно.

Изображение: Panmnesia

Для решения этой проблемы компания Panmnesia разработала корневой комплекс (RC), соответствующий CXL 3.1, оснащенный несколькими корневыми портами (RP), поддерживающими внешнюю память через PCIe), и хост-мостом с декодером памяти устройства, управляемого хостом (HDM), который подключается к Системная шина графического процессора. Декодер HDM, отвечающий за управление диапазонами адресов системной памяти, по сути заставляет подсистему памяти графического процессора «думать», что она имеет дело с системной памятью, но на самом деле подсистема использует подключенную к PCIe DRAM или NAND. Это означает, что для расширения пула памяти графического процессора можно использовать либо DDR5, либо твердотельные накопители.

Изображение: Panmnesia

Решение (основанное на специальном графическом процессоре и отмеченное как CXL-Opt) прошло тщательное тестирование, показав двухзначную наносекундную задержку туда и обратно (по сравнению с 250 нс в случае прототипов, разработанных Samsung и Meta, которые имеют маркировку CXL-). Proto на графиках ниже), включая время, необходимое для преобразования протокола между стандартными операциями с памятью и передачей CXL, согласно Panmnesia. Он был успешно интегрирован как в расширители памяти, так и в прототипы графических процессоров/ЦП на аппаратной RTL, продемонстрировав свою совместимость с различным вычислительным оборудованием.

Изображение: Panmnesia

По данным Panmnesia, UVM работает хуже всех протестированных ядер графического процессора из-за накладных расходов, связанных с вмешательством среды выполнения хоста во время ошибок страниц и передачей данных на уровне страницы, что часто превышает потребности графического процессора. Напротив, CXL обеспечивает прямой доступ к расширенному хранилищу с помощью инструкций загрузки/сохранения, устраняя эти проблемы.

Следовательно, время выполнения

Среда выполнения (англ. execution environment, иногда «ранта́йм» от англ. runtime — «время выполнения») в информатике — вычислительное окружение, необходимое для выполнения компьютерной программы и доступное во время выполнения компьютерной программы. В среде выполнения, как правило, невозможно изменение исходного текста программы, но может наличествовать доступ к переменным окружения операционной системы, таблицам объектов и модулей разделяемых библиотек. Википедия

CXL-Proto в 1,94 раза короче, чем UVM. CXL-Opt от Panmnesia еще больше сокращает время выполнения в 1,66 раза, благодаря оптимизированному контроллеру, обеспечивающему задержку в две цифры наносекунд и минимизирующую задержку чтения/записи. Эта закономерность также очевидна на другом рисунке, на котором показаны значения IPC, записанные во время выполнения ядра графического процессора. Результаты показывают, что CXL-Opt от Panmnesia обеспечивает производительность в 3,22 раза и в 1,65 раза быстрее, чем UVM и CXL-Proto соответственно.

В целом, поддержка CXL может многое сделать для графических процессоров AI/HPC, но производительность остается под большим вопросом. Кроме того, пока неизвестно, добавят ли такие компании, как AMD и Nvidia, поддержку CXL в свои графические процессоры. Если подход к использованию памяти, подключаемой через PCIe, для графических процессоров действительно наберет обороты, только время покажет, будут ли тяжеловесы отрасли использовать IP-блоки от таких компаний, как Panmnesia, или просто разработают свои собственные технологии.

Источник: Tomshardware.com