Tesla разработала инструмент для обнаружения дефектных ядер в суперкомпьютерах Dojo

Tesla представила инструмент Stress, который позволяет обнаруживать дефектные ядра в своих суперкомпьютерах Dojo, содержащих миллионы ядер, без необходимости их отключения. Это критически важно, так как даже одна ошибка может разрушить результаты недельного обучения ИИ.

Dojo — один из крупнейших процессоров в мире, созданный на основе целой 300-мм кремниевой пластины. Каждый такой процессор содержит до 8 850 ядер, но некоторые из них могут вызывать «тихие» ошибки данных (SDC), что приводит к искажению результатов длительных тренировок ИИ.

Изображение: Tesla

Как работает Stress

Изначально Tesla использовала метод дифференциального фаззинга, но он оказался слишком медленным из-за высокой нагрузки на коммуникацию между хостом и процессором. Затем компания оптимизировала подход, заставив ядра обмениваться данными внутри процессора, что ускорило тестирование.

Дальнейшие улучшения включали:

  • Многократное выполнение одних и тех же инструкций для выявления редких ошибок.
  • Использование операций XOR для повышения вероятности обнаружения дефектов в 10 раз.

Изображение: Tesla

Масштабируемость и будущее

Метод Stress работает не только на уровне отдельных процессоров, но и в масштабах целых кластеров Dojo, содержащих миллионы ядер. Tesla также планирует использовать собранные данные для изучения долгосрочной деградации оборудования.

Изображение: Tesla

Компания отмечает, что Stress уже помог выявить редкие конструктивные недостатки, которые были исправлены программными методами. В будущем Tesla намерена применять этот инструмент на этапах предпроизводственного тестирования.

На сегодня только две компании — Tesla и Cerebras — создали процессоры на целых кремниевых пластинах. По данным TSMC, в ближайшие годы к ним присоединятся и другие производители.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос и обновите страницу через пару минут 👍
• AI Rutab работает в тестовом режиме и может ошибаться, либо просто не знать ответа.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.

Топ дня 🌶️


0 комментариев

Оставить комментарий