Nvidia предлагает $1000 за исправление бага с перезагрузкой в GeForce RTX 5090
Новые видеокарты Nvidia GeForce RTX 5090 и RTX PRO 6000, по сообщениям, страдают от воспроизводимой ошибки сброса при виртуализации, которая может полностью заблокировать карты до физической перезагрузки системы.
CloudRift, поставщик облачных услуг для GPU, опубликовал детальный анализ проблемы после столкновения с ней на нескольких системах с архитектурой Blackwell в продакшене. Компания даже назначила публичное вознаграждение в $1000 (~80000 руб.) для любого, кто сможет найти исправление или первопричину.
Ошибка сброса «блокирует» Blackwell
Согласно журналам CloudRift, ошибка возникает после того, как GPU был передан виртуальной машине с использованием KVM и VFIO. При завершении работы гостевой системы или перераспределении GPU хост инициирует сброс на уровне функции PCIe (FLR), что является стандартной частью очистки сквозного устройства. Но вместо возврата в известное рабочее состояние GPU перестает отвечать: «не готово через 65535 мс после FLR; сдаемся», — сообщает ядро.
На этом этапе карта также становится нечитаемой для lspci, которая выдает ошибки «неизвестный тип заголовка 7f». CloudRift отмечает, что единственный способ восстановить нормальную работу — это полный цикл перезагрузки питания всей машины. Tiny Corp, стартап в области ИИ, стоящий за tinygrad, привлек внимание к проблеме, репостнув выводы CloudRift на X.com с прямым вопросом:
«У 5090 и RTX PRO 6000 есть аппаратный дефект? Мы изучили это и не можем найти исправление. Если кратко: карты могут попасть в состояние, когда они не реагируют на сброс».
Другие пользователи подтверждают аналогичные сбои
Темы на форумах Proxmox и в сообществе Level1Techs указывают на то, что домашние пользователи и другие ранние последователи RTX 5090 также сталкиваются с похожим поведением.
В одном случае пользователь сообщил о полном зависании хоста после завершения работы гостевой Windows, причем GPU не смог повторно инициализироваться даже после перезагрузки на уровне ОС. В другом случае пользователь заявил:
«Я обнаружил, что мой хост перестал отвечать. Дальнейшая отладка показала, что хост-процессор получил мягкую блокировку после тайм-аута FLO, который произошел после завершения работы LinuxVM. С моим предыдущим 4080 проблем не было».
Несколько пользователей подтверждают, что переключение настроек PCIe ASPM или ACS не устраняет сбой. Со старыми картами, такими как RTX 4090, проблем не сообщалось, что позволяет предположить, что ошибка может быть ограничена семейством Blackwell от Nvidia.
FLR — это критически важная функция в конфигурациях сквозной передачи GPU, позволяющая безопасно сбрасывать и перераспределять устройство между гостями. Если FLR ненадежен, то многопользовательские рабочие нагрузки ИИ и домашние лабораторные установки с использованием виртуализации становятся рискованными, особенно когда отказ одной карты выводит из строя весь хост.
Nvidia официально еще не признала проблему, и на момент написания статьи не известно никаких способов ее устранения.
Источник: Tomshardware.com
0 комментариев