Tesla разработала инструмент для обнаружения дефектных ядер в суперкомпьютерах Dojo
Tesla представила инструмент Stress, который позволяет обнаруживать дефектные ядра в своих суперкомпьютерах Dojo, содержащих миллионы ядер, без необходимости их отключения. Это критически важно, так как даже одна ошибка может разрушить результаты недельного обучения ИИ.
Dojo — один из крупнейших процессоров в мире, созданный на основе целой 300-мм кремниевой пластины. Каждый такой процессор содержит до 8 850 ядер, но некоторые из них могут вызывать «тихие» ошибки данных (SDC), что приводит к искажению результатов длительных тренировок ИИ.
Изображение: Tesla
Как работает Stress
Изначально Tesla использовала метод дифференциального фаззинга, но он оказался слишком медленным из-за высокой нагрузки на коммуникацию между хостом и процессором. Затем компания оптимизировала подход, заставив ядра обмениваться данными внутри процессора, что ускорило тестирование.
Дальнейшие улучшения включали:
- Многократное выполнение одних и тех же инструкций для выявления редких ошибок.
- Использование операций XOR для повышения вероятности обнаружения дефектов в 10 раз.
Изображение: Tesla
Масштабируемость и будущее
Метод Stress работает не только на уровне отдельных процессоров, но и в масштабах целых кластеров Dojo, содержащих миллионы ядер. Tesla также планирует использовать собранные данные для изучения долгосрочной деградации оборудования.
Изображение: Tesla
Компания отмечает, что Stress уже помог выявить редкие конструктивные недостатки, которые были исправлены программными методами. В будущем Tesla намерена применять этот инструмент на этапах предпроизводственного тестирования.
На сегодня только две компании — Tesla и Cerebras — создали процессоры на целых кремниевых пластинах. По данным TSMC, в ближайшие годы к ним присоединятся и другие производители.
0 комментариев