Огромный объем VRAM в GPU AMD Instinct вызывает проблемы с гибернацией в Linux
В сегодняшней серии патчей для Linux инженер AMD Самуэль Чжан обратил внимание на необычную проблему: серверы под управлением Linux не могут перейти в режим гибернации из-за чрезмерного объема видеопамяти (VRAM) и большого количества ускорителей AMD Instinct в системе. Напомним, что Instinct — это мощные GPU от AMD, разработанные специально для дата-центров, занимающихся обработкой задач ИИ, высокопроизводительными вычислениями, научными исследованиями и другими ресурсоемкими операциями.
Одна из особенностей этих видеокарт — огромный объем VRAM, например, до 192 ГБ в некоторых моделях. Для геймеров это может показаться невероятным, но для современных дата-центров такие значения стали стандартом. В данном случае сервер на базе Linux и AMD AI оснащен восемью картами Instinct, что в сумме дает около 1,5 ТБ видеопамяти. Однако, несмотря на преимущества большого объема VRAM, в подобных конфигурациях могут возникать неожиданные проблемы.
Хотя объем видеопамяти играет свою роль, корень проблемы с гибернацией кроется не в количестве карт Instinct, а в том, как Linux обрабатывает память GPU во время перехода в спящий режим. При инициации гибернации вся видеопамять сначала переносится в оперативную память системы, обычно через Graphics Translation Table (GTT) или shared memory (shmem). Затем ядро создает образ гибернации, копируя все содержимое системной памяти (включая выгруженную VRAM) во вторую область памяти перед записью на диск.
Если упростить: если сервер имеет 1,5 ТБ видеопамяти, то дублирование данных может увеличить использование памяти до 3 ТБ, что легко превышает возможности серверов с «всего лишь» 2 ТБ оперативной памяти. В результате процесс гибернации завершается с ошибкой.
К счастью, Чжан уже работает над решением этой проблемы и предлагает два основных изменения. Первое направлено на уменьшение объема системной памяти, необходимой для гибернации, что позволит успешно завершать процесс. Однако это создает новую проблему: этап «разморозки» (восстановления системы из гибернации) может занимать почти час из-за огромного объема данных. Чтобы устранить это, был добавлен третий патч, пропускающий восстановление буферных объектов на этапе разморозки, что значительно сокращает время возобновления работы.
Возникает вопрос: зачем вообще переводить высокопроизводительные ИИ-серверы в режим гибернации, если они обычно работают непрерывно? Одна из распространенных причин — снижение энергопотребления в периоды простоя и стабилизация энергосети. Крупные дата-центры потребляют колоссальное количество энергии, и гибернация помогает снизить риск отключений электроэнергии, подобных недавнему инциденту в Испании.
Источник: Tomshardware.com
0 комментариев