DeepSeek столкнулась с проблемами при обучении новой модели на оборудовании Huawei
Согласно новому отчету, после успешного обучения своей модели R1 на оборудовании Nvidia, китайские власти рекомендовали компании DeepSeek перейти на использование аппаратного обеспечения Huawei Ascend для следующей модели. Однако, как сообщает Financial Times, обучение модели R2 столкнулось с постоянными сбоями оборудования Huawei, что задержало выпуск модели. DeepSeek якобы была вынуждена вернуться к использованию чипов Nvidia для обучения, оставив оборудование Huawei для вывода.
После успеха R1 китайские власти якобы поощряли DeepSeek полагаться на платформы Huawei Ascend вместо Nvidia для обучения, согласно трем осведомленным источникам, процитированным FT. DeepSeek последовала этому совету во время разработки R2, но быстро столкнулась с рядом проблем, включая нестабильную производительность, медленное соединение между чипами и ограничения программного обеспечения Huawei CANN.
В результате DeepSeek вернулась к использованию ускорителей ИИ Nvidia для обучения модели R2, сохранив оборудование Huawei для вывода. С одной стороны, этот смешанный подход стал компромиссом, вызванным необходимостью, а не предпочтением. С другой стороны, учитывая дефицит процессоров Nvidia в Китае, имеет смысл обеспечить работу новой модели ИИ на оборудовании Huawei, так как многие клиенты DeepSeek будут использовать R2 на таких платформах.
Huawei якобы направила команду инженеров в дата-центры DeepSeek, чтобы попытаться решить проблемы с обучением. Несмотря на их присутствие, компании так и не удалось провести полностью успешное обучение на платформе Ascend. Усилия по обеспечению совместимости новой модели с Ascend для вывода продолжаются.
Невозможность завершить обучение на Ascend стала основной причиной задержки запуска R2 с запланированной даты в мае, сообщил источник, знакомый с проектом. Однако, как отмечалось в предыдущем отчете, дефицит высокопроизводительных GPU Nvidia в Китае также повлиял на график R2. Пока неизвестно, была ли модель R2 полностью предварительно обучена.
DeepSeek якобы обучала свою модель R1 на кластере из 50 000 GPU серии Hopper — состоящем из 30 000 HGX H20, 10 000 H800 и 10 000 H100 — которые были предоставлены инвестором High-Flyer Capital Management. По естественным причинам, R2 потребует значительно более мощного кластера для обучения, поэтому DeepSeek и ее инвестору придется где-то его раздобыть (что может быть не так сложно, учитывая множество дата-центров ИИ в Китае).
Однако может возникнуть еще одна проблема. Сообщается, что платформа ИИ DeepSeek оптимизирована специально для оборудования Nvidia, что не только делает компанию уязвимой к доступности GPU Nvidia, но и заставляет ее клиентов зависеть от поставок ускорителей ИИ, таких как HGX H20. В связи с этим для DeepSeek крайне важно обеспечить работу вывода R2 на отечественных аппаратных платформах, таких как Ascend от Huawei.
Источник: Tomshardware.com
0 комментариев