Nvidia представила ПО для отслеживания местоположения AI-ускорителей

После сообщений о разработке программного обеспечения для управления парком GPU, Nvidia в четверг, 12 декабря, подробно рассказала о своём новом решении для мониторинга. Программа действительно позволяет операторам дата-центров отслеживать различные аспекты работы флота AI-ускорителей, включая их физическое местоположение, что потенциально может препятствовать контрабанде чипов. Однако есть нюанс: использование ПО является добровольным, а не обязательным, что может ограничить его эффективность в борьбе с нелегальным оборотом.

Программа собирает обширные телеметрические данные, которые агрегируются на центральной панели управления, размещённой на платформе Nvidia NGC. Этот интерфейс позволяет клиентам визуализировать статус GPU во всём парке, глобально или по вычислительным зонам, представляющим конкретные физические или облачные локации. Операторы могут просматривать сводки по всему флоту, углубляться в отдельные кластеры и генерировать структурированные отчёты с данными об инвентаре и состоянии системы.

Nvidia подчёркивает, что ПО носит исключительно наблюдательный характер: оно даёт представление о поведении GPU, но не может выступать в качестве «задней двери» или аварийного выключателя. Таким образом, даже если компания через платформу NGC обнаружит, что некоторые из её ускорителей были незаконно ввезены, например, в Китай, она не сможет их дистанционно отключить. Однако собранные данные могут помочь выяснить, как оборудование оказалось в этом месте. Компания заявляет, что программа представляет собой устанавливаемый клиентом инструмент с открытым исходным кодом, который является прозрачным и поддаётся аудиту.

Изображение: Nvidia

Новое ПО для управления парком даёт операторам дата-центров детальное представление в реальном времени о том, как их GPU-инфраструктура ведёт себя под нагрузкой. Оно непрерывно собирает телеметрию по энергопотреблению, включая кратковременные скачки, что позволяет операторам оставаться в рамках лимитов. Помимо данных о питании, система отслеживает загрузку, использование пропускной способности памяти и состояние межсоединений, помогая максимизировать производительность на ватт. Эти показатели помогают выявить дисбаланс нагрузки, насыщение каналов и проблемы на уровне связей, которые могут незаметно снижать производительность крупных AI-кластеров.

Ещё одним фокусом программы является мониторинг температурных режимов и условий воздушного потока для предотвращения теплового троттлинга и преждевременного старения компонентов. Раннее обнаружение «горячих точек» и недостаточного охлаждения помогает избежать падения производительности, характерного для высокоплотных вычислительных сред, и во многих случаях предотвратить ускоренный износ акселераторов.

Система также проверяет, используют ли узлы единые программные стеки и операционные параметры, что критически важно для воспроизводимости данных и предсказуемости процесса обучения. Любое расхождение в конфигурации, такое как несовпадение версий драйверов или настроек, становится видимым на платформе.

Важно отметить, что новая служба управления флотом — не единственный инструмент Nvidia для удалённой диагностики и контроля GPU, хотя и самый продвинутый. Например, DCGM — это локальный набор инструментов для диагностики и мониторинга, который предоставляет сырые данные о состоянии GPU, но требует от операторов самостоятельной сборки дашбордов и пайплайнов агрегации, что снижает удобство использования. Также существует Base Command — среда для оркестрации рабочих процессов, предназначенная для разработки ИИ, планирования задач и управления данными, а не для глубокого мониторинга «железа».

Вместе эти три инструмента представляют собой мощный набор средств для операторов дата-центров: DCGM обеспечивает зондирование на уровне узлов, Base Command управляет рабочими нагрузками, а новая служба интегрирует их в единую платформу видимости всего парка, масштабируемую для географически распределённых GPU-развёртываний.

Источник: Tomshardware.com

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.


0 комментариев

Оставить комментарий


Все комментарии - Технологии