Графические процессоры используют память накопителей PCIe

Современные графические процессоры для приложений искусственного интеллекта и высокопроизводительных вычислений поставляются с ограниченным объемом встроенной в устройство памяти с высокой пропускной способностью (HBM), что ограничивает их производительность в задачах искусственного интеллекта и других рабочих нагрузках. Тем не менее, новая технология позволит компаниям расширить объем памяти графического процессора, добавляя больше памяти, подключенной к шине PCIe

Thumbnail: PCI ExpressPCI Express (Peripheral Component Interconnect Express), или PCIe, или PCI-e (также известная как 3GIO for 3rd Generation I/O; не путать с PCI-X и PXI) — компьютерная шина (хотя на физическом уровне шиной не является, будучи соединением типа «точка-точка»), использующая программную модель шины PCI и высокопроизводительный физический протокол, основанный на последовательной передаче данных. Разработка стандарта PCI Express была начата фирмой Intel после отказа от шины InfiniBand. Официально первая базовая спецификация PCI Express появилась в июле 2002 года. Развитием стандарта PCI Express занимается организация PCI Special Interest Group. Википедия

Читайте также:Утечка диаграммы чипсета Intel Arrow Lake показывает больше линий PCIe, без поддержки DDR4SK hynix вступает в ряды AI со своим первым твердотельным накопителем PCIe 5.0Оптическое соединение PCIe 7.0 достигает невероятных 128 ГТ/сПроблема с соблюдением требований PCIe 6.0 и 7.0Realtek присоединяется к гонке контроллеров твердотельных накопителей PCIe 5.0 NVMe

, вместо того, чтобы полностью ограничиваться встроенной в устройство памятью — она даже позволяет использовать твердотельные накопители для расширения объема памяти. Компания Panmnesia, поддерживаемая известным южнокорейским исследовательским институтом KAIST, разработала CXL IP с малой задержкой, которую можно использовать для расширения памяти графического процессора с помощью расширителей памяти CXL.

Требования к памяти для более продвинутых наборов данных для обучения ИИ быстро растут, а это означает, что компаниям, занимающимся ИИ, приходится либо покупать новые графические процессоры, либо использовать менее сложные наборы данных, либо использовать память ЦП в ущерб производительности. Хотя CXL — это протокол, который формально работает поверх канала PCIe, что позволяет пользователям подключать больше памяти к системе через шину PCIe, технология должна распознаваться ASIC и ее подсистемой, поэтому достаточно просто добавить контроллер CXL. недостаточно, чтобы технология работала, особенно на графическом процессоре.

Panmnesia столкнулась с трудностями при интеграции CXL для расширения памяти графического процессора из-за отсутствия логической структуры CXL и подсистем, поддерживающих конечные точки DRAM и/или SSD в графических процессорах. Кроме того, подсистемы кэша и памяти графического процессора не распознают никаких расширений, кроме унифицированной виртуальной памяти (UVM), которая имеет тенденцию работать медленно.

Изображение: Panmnesia

Для решения этой проблемы компания Panmnesia разработала корневой комплекс (RC), соответствующий CXL 3.1, оснащенный несколькими корневыми портами (RP), поддерживающими внешнюю память через PCIe), и хост-мостом с декодером памяти устройства, управляемого хостом (HDM), который подключается к Системная шина графического процессора. Декодер HDM, отвечающий за управление диапазонами адресов системной памяти, по сути заставляет подсистему памяти графического процессора «думать», что она имеет дело с системной памятью, но на самом деле подсистема использует подключенную к PCIe DRAM или NAND. Это означает, что для расширения пула памяти графического процессора можно использовать либо DDR5, либо твердотельные накопители.

Изображение: Panmnesia

Решение (основанное на специальном графическом процессоре и отмеченное как CXL-Opt) прошло тщательное тестирование, показав двухзначную наносекундную задержку туда и обратно (по сравнению с 250 нс в случае прототипов, разработанных Samsung и Meta, которые имеют маркировку CXL-). Proto на графиках ниже), включая время, необходимое для преобразования протокола между стандартными операциями с памятью и передачей CXL, согласно Panmnesia. Он был успешно интегрирован как в расширители памяти, так и в прототипы графических процессоров/ЦП на аппаратной RTL, продемонстрировав свою совместимость с различным вычислительным оборудованием.

Изображение: Panmnesia

По данным Panmnesia, UVM работает хуже всех протестированных ядер графического процессора из-за накладных расходов, связанных с вмешательством среды выполнения хоста во время ошибок страниц и передачей данных на уровне страницы, что часто превышает потребности графического процессора. Напротив, CXL обеспечивает прямой доступ к расширенному хранилищу с помощью инструкций загрузки/сохранения, устраняя эти проблемы.

Следовательно, время выполнения

Среда выполнения (англ. execution environment, иногда «ранта́йм» от англ. runtime — «время выполнения») в информатике — вычислительное окружение, необходимое для выполнения компьютерной программы и доступное во время выполнения компьютерной программы. В среде выполнения, как правило, невозможно изменение исходного текста программы, но может наличествовать доступ к переменным окружения операционной системы, таблицам объектов и модулей разделяемых библиотек. Википедия

CXL-Proto в 1,94 раза короче, чем UVM. CXL-Opt от Panmnesia еще больше сокращает время выполнения в 1,66 раза, благодаря оптимизированному контроллеру, обеспечивающему задержку в две цифры наносекунд и минимизирующую задержку чтения/записи. Эта закономерность также очевидна на другом рисунке, на котором показаны значения IPC, записанные во время выполнения ядра графического процессора. Результаты показывают, что CXL-Opt от Panmnesia обеспечивает производительность в 3,22 раза и в 1,65 раза быстрее, чем UVM и CXL-Proto соответственно.

В целом, поддержка CXL может многое сделать для графических процессоров AI/HPC, но производительность остается под большим вопросом. Кроме того, пока неизвестно, добавят ли такие компании, как AMD и Nvidia, поддержку CXL в свои графические процессоры. Если подход к использованию памяти, подключаемой через PCIe, для графических процессоров действительно наберет обороты, только время покажет, будут ли тяжеловесы отрасли использовать IP-блоки от таких компаний, как Panmnesia, или просто разработают свои собственные технологии.

Источник: Tomshardware.com

Подписаться на обновления Новости / Технологии

0 комментариев

Оставить комментарий


Новые комментарии

требуется указать магазин и purchase date без этого не регистрирует
  • Анон
Россия на них клала❤❤❤❤, будет называться Ладушка 2.0 )))
  • Анон
ДА у меня тоже неработает уже все Вы не знаете каким способом вернуть все обратно СПАСИ
  • Анон
Хаетв Рустам Базарвич Хаетв
  • Анон
Очень довольна приложением. Пользуюсь сама и рекомендую другим.
16 способ - Ноутбук HP ProBook 4740s автоматически установлена камера HP HD Webcam [Fixed] при этом онлайн из браузера подключается камера к веб страницам, камера работает. С приложениями камера...
  • Анон
вообще не редкий, мне с озона такой же пришел
  • Анон
Чу горбатого лепите? в инструкции BypassTPPMCheck на картинке BypassTPMCheck вы хоть проверяйте! этж реестр ё маё!
  • Анон
это провокация на линукс синий экран да ни когда в жизни этого не будет
  • Анон
СуперАпп это СуперАпп - новый всемирный Тренд.
  • Анон

Смотреть все