Группа с участием Huawei заявила о пост-обучении модели DeepSeek на 1,6 трлн параметров с помощью 1000 чипов Ascend 910C

Исследовательская группа, в которую входит компания Huawei Technologies, заявила о завершении полнопараметрического пост-обучения модели DeepSeek V4-Pro, содержащей 1,6 триллиона параметров. Для этого использовался кластер как минимум из 1 000 чипов Huawei Ascend 910C, сообщает правительство Шэньчжэня, о чем пишет South China Morning Post.

Это заявление свидетельствует о том, что китайские ускорители теперь способны справляться с вычислительной нагрузкой, характерной для обучения моделей, на отечественных чипах. Именно этот этап в конвейере ИИ вызывал наибольшие трудности у китайских компаний, которые из-за экспортных ограничений США не могут использовать оборудование Nvidia. Huawei провела эту работу совместно с Шэньчжэньским институтом Loop Area, Шэньчжэньским кампусом Харбинского политехнического института и Шэньчжэньским научно-исследовательским институтом больших данных.

Ascend 910C — это флагманский ИИ-ускоритель Huawei, двухкристальный чип, который в более ранних тестах DeepSeek показал примерно 60% производительности инференса от Nvidia H100. Китайские чипы были конкурентоспособны в задачах инференса (когда готовая модель отвечает на запросы), но слабы в обучении (когда веса модели пересчитываются на больших наборах данных). Команда заявляет, что провела полнопараметрическое пост-обучение, то есть обновлялись все веса, а не добавлялся тонкий адаптерный слой.

Пост-обучение — это, по сути, этап «тонкой настройки», который следует за гораздо более масштабным предварительным обучением. Предварительное обучение формирует базовые возможности модели, обрабатывая огромные массивы текстов. Согласно документации DeepSeek, корпус предварительного обучения V4-Pro превышает 32 триллиона токенов.

Изображение: Microsoft

Пост-обучение затем настраивает поведение модели с помощью данных для следования инструкциям, выравнивания безопасности и выполнения конкретных задач. Завершение этого этапа на чипах Ascend — значимый результат для платформы, но он не доказывает, что эти чипы способны с нуля обучить передовую модель, что является более тяжелой и дорогостоящей задачей.

Еще в августе сообщалось, что DeepSeek не смогла провести ни одного успешного сеанса обучения своей модели R2 на чипах Ascend, даже при участии инженеров Huawei на месте. Причинами назывались нестабильная производительность, медленные межчиповые соединения и пробелы в программном стеке CANN от Huawei (заменителе Nvidia CUDA). Тогда компания вернулась к использованию GPU Nvidia для обучения, оставив Ascend для инференса. DeepSeek-V4-Pro, выпущенная в апреле, стала первой моделью DeepSeek, изначально построенной на базе Ascend.

Что касается заявления из Шэньчжэня, оно не содержит контрольных показателей, не указывает, сколько времени занял процесс, как он соотносится с аналогичной задачей на оборудовании Nvidia или насколько эффективно использовался кластер из 1 000 чипов. В конечном итоге, это очередное дополнение к серии сомнительных заявлений, поступающих от китайского государства без каких-либо подтверждений; сама DeepSeek никак не комментировала эту информацию.

Источник: Tomshardware.com

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ в комментариях

Вы можете задать вопрос нашему ИИ-помощнику прямо в комментариях к этой статье. Он постарается быстро ответить или уточнить информацию.

⚠️ ИИ может ошибаться — проверяйте важную информацию.


0 комментариев

Оставить комментарий


Все комментарии - Технологии