Графические процессоры используют память накопителей PCIe

Современные графические процессоры для приложений искусственного интеллекта и высокопроизводительных вычислений поставляются с ограниченным объемом встроенной в устройство памяти с высокой пропускной способностью (HBM), что ограничивает их производительность в задачах искусственного интеллекта и других рабочих нагрузках. Тем не менее, новая технология позволит компаниям расширить объем памяти графического процессора, добавляя больше памяти, подключенной к шине PCIe

Thumbnail: PCI ExpressPCI Express (Peripheral Component Interconnect Express), или PCIe, или PCI-e (также известная как 3GIO for 3rd Generation I/O; не путать с PCI-X и PXI) — компьютерная шина (хотя на физическом уровне шиной не является, будучи соединением типа «точка-точка»), использующая программную модель шины PCI и высокопроизводительный физический протокол, основанный на последовательной передаче данных. Разработка стандарта PCI Express была начата фирмой Intel после отказа от шины InfiniBand. Официально первая базовая спецификация PCI Express появилась в июле 2002 года. Развитием стандарта PCI Express занимается организация PCI Special Interest Group. Википедия

Читайте также:Утечка диаграммы чипсета Intel Arrow Lake показывает больше линий PCIe, без поддержки DDR4SK hynix вступает в ряды AI со своим первым твердотельным накопителем PCIe 5.0Оптическое соединение PCIe 7.0 достигает невероятных 128 ГТ/сПроблема с соблюдением требований PCIe 6.0 и 7.0Realtek присоединяется к гонке контроллеров твердотельных накопителей PCIe 5.0 NVMe

, вместо того, чтобы полностью ограничиваться встроенной в устройство памятью — она даже позволяет использовать твердотельные накопители для расширения объема памяти. Компания Panmnesia, поддерживаемая известным южнокорейским исследовательским институтом KAIST, разработала CXL IP с малой задержкой, которую можно использовать для расширения памяти графического процессора с помощью расширителей памяти CXL.

Требования к памяти для более продвинутых наборов данных для обучения ИИ быстро растут, а это означает, что компаниям, занимающимся ИИ, приходится либо покупать новые графические процессоры, либо использовать менее сложные наборы данных, либо использовать память ЦП в ущерб производительности. Хотя CXL — это протокол, который формально работает поверх канала PCIe, что позволяет пользователям подключать больше памяти к системе через шину PCIe, технология должна распознаваться ASIC и ее подсистемой, поэтому достаточно просто добавить контроллер CXL. недостаточно, чтобы технология работала, особенно на графическом процессоре.

Panmnesia столкнулась с трудностями при интеграции CXL для расширения памяти графического процессора из-за отсутствия логической структуры CXL и подсистем, поддерживающих конечные точки DRAM и/или SSD в графических процессорах. Кроме того, подсистемы кэша и памяти графического процессора не распознают никаких расширений, кроме унифицированной виртуальной памяти (UVM), которая имеет тенденцию работать медленно.

Изображение: Panmnesia

Для решения этой проблемы компания Panmnesia разработала корневой комплекс (RC), соответствующий CXL 3.1, оснащенный несколькими корневыми портами (RP), поддерживающими внешнюю память через PCIe), и хост-мостом с декодером памяти устройства, управляемого хостом (HDM), который подключается к Системная шина графического процессора. Декодер HDM, отвечающий за управление диапазонами адресов системной памяти, по сути заставляет подсистему памяти графического процессора «думать», что она имеет дело с системной памятью, но на самом деле подсистема использует подключенную к PCIe DRAM или NAND. Это означает, что для расширения пула памяти графического процессора можно использовать либо DDR5, либо твердотельные накопители.

Изображение: Panmnesia

Решение (основанное на специальном графическом процессоре и отмеченное как CXL-Opt) прошло тщательное тестирование, показав двухзначную наносекундную задержку туда и обратно (по сравнению с 250 нс в случае прототипов, разработанных Samsung и Meta, которые имеют маркировку CXL-). Proto на графиках ниже), включая время, необходимое для преобразования протокола между стандартными операциями с памятью и передачей CXL, согласно Panmnesia. Он был успешно интегрирован как в расширители памяти, так и в прототипы графических процессоров/ЦП на аппаратной RTL, продемонстрировав свою совместимость с различным вычислительным оборудованием.

Изображение: Panmnesia

По данным Panmnesia, UVM работает хуже всех протестированных ядер графического процессора из-за накладных расходов, связанных с вмешательством среды выполнения хоста во время ошибок страниц и передачей данных на уровне страницы, что часто превышает потребности графического процессора. Напротив, CXL обеспечивает прямой доступ к расширенному хранилищу с помощью инструкций загрузки/сохранения, устраняя эти проблемы.

Следовательно, время выполнения

Среда выполнения (англ. execution environment, иногда «ранта́йм» от англ. runtime — «время выполнения») в информатике — вычислительное окружение, необходимое для выполнения компьютерной программы и доступное во время выполнения компьютерной программы. В среде выполнения, как правило, невозможно изменение исходного текста программы, но может наличествовать доступ к переменным окружения операционной системы, таблицам объектов и модулей разделяемых библиотек. Википедия

CXL-Proto в 1,94 раза короче, чем UVM. CXL-Opt от Panmnesia еще больше сокращает время выполнения в 1,66 раза, благодаря оптимизированному контроллеру, обеспечивающему задержку в две цифры наносекунд и минимизирующую задержку чтения/записи. Эта закономерность также очевидна на другом рисунке, на котором показаны значения IPC, записанные во время выполнения ядра графического процессора. Результаты показывают, что CXL-Opt от Panmnesia обеспечивает производительность в 3,22 раза и в 1,65 раза быстрее, чем UVM и CXL-Proto соответственно.

В целом, поддержка CXL может многое сделать для графических процессоров AI/HPC, но производительность остается под большим вопросом. Кроме того, пока неизвестно, добавят ли такие компании, как AMD и Nvidia, поддержку CXL в свои графические процессоры. Если подход к использованию памяти, подключаемой через PCIe, для графических процессоров действительно наберет обороты, только время покажет, будут ли тяжеловесы отрасли использовать IP-блоки от таких компаний, как Panmnesia, или просто разработают свои собственные технологии.

Источник: Tomshardware.com

Подписаться на обновления Новости / Технологии

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• Rutab-Бот читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос и обновите страницу через пару минут 👍
• Rutab-Бот работает в тестовом режиме и может ошибаться, либо просто не знать ответа.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.

Топ дня 🌶️


0 комментариев

Оставить комментарий


Новые комментарии

а разве рыцари Круглого стола и викинги не были чернокожими???
  • Анон
игра с формированием ложного самомнения через подхалимаж. ---По образу и подобию .....
  • Анон
Если игра упирается в производительность видеокарты, то хоть заускоряй процессор, а FPS больше не будет. Я у себя на синтетических тестах получил лишь меньшую задержку памяти. В играх практически...
  • Анон
Всё в порядке с физикой: источник может быть меньше четверти длины волны. Даже одиночный ион в ионной ловушке может излучать видимый свет (а размер меньше 0.2нм).
  • Анон
Можно делать смартфоны и планшеты на этом процессоре и наконец то использовать полноценную windows. Это отличная замена процессорам arm
  • Анон
Странно почему не 50 долларов.
  • Анон
Понимаю мощь производительность и все дела, но как черт возьми тепло отделять от камня если его прям нагрузить
  • Анон
Не предвзятость это - "Интересно, что Arc B580 проигрывает RTX 4060 в OpenCL" - где разница на невероятных 3,5 %, "но реабилитируется с НЕЗНАЧИТЕЛЬНЫМ 6%-ным преимуществом в Vulkan.". Не...
  • Анон
И теперь нельзя отключить авто обновление!!! Это жесть
  • Анон
Не знаю, я купил Cougar850 80Gold за 10К₽ и нормально
  • Анон

Смотреть все