Утекли полные технические характеристики DeepSeek V4: 1,6 триллиона параметров и контекст в 1 миллион токенов

До конца месяца осталась всего одна неделя, и многие крупные производители недавно выпустили новые продукты или обновления, но DeepSeek V4 всё ещё находится в разработке, что вызывает нетерпение у пользователей.

Больше всего в DeepSeek V4 ждут новые технологии, которые помогут разработанным в стране моделям ИИ достичь мирового уровня. Даже если он не будет самым мощным, он, по крайней мере, сможет конкурировать с лучшими закрытыми проектами ИИ.

Сегодня аспирант Принстонского университета Ифань Чжан раскрыл полные технические характеристики DeepSeek V4 на платформе X. Как известно, существует две версии V4: полная версия с общим количеством параметров 1,6 триллиона и V4 Lite с 285 миллиардами параметров. Эти данные соответствуют предыдущим слухам.

Что касается механизма внимания, DeepSeek V4 использует DSA2, который объединяет механизм DSA из предыдущей версии DeepSeek V3/R1 и механизм разреженного внимания NSA, предложенный в статье DeepSeek, опубликованной ранее в этом году.

Технология MoE Hybrid Expert Technology использует схему объединения с мега-ядром, включающим 384 эксперта на каждом слое и 6 экспертов, активированных одновременно.

Остаточные соединения — это гиперсоединения, которые были предложены в предыдущей статье и также упомянуты в недавнем обновлении DeepGemm.

В процессе обучения и оптимизации бэкэнда также использовались многие новые технологии. В качестве оптимизатора использовался Muon, а для обучения с подкреплением применялись GRPO и коррекция дивергенции KL. Наконец, предварительно обученный контекст из 32 000 элементов был расширен до 1 миллиона элементов.

Кроме того, хотя предыдущие обновления DeepSeek намекали на поддержку обработки изображений, подразумевая многомодальную работу, несколько удивительно, что здесь она описывается как по-прежнему большая текстовая модель.

В целом, его откровение содержало много информации, но о её достоверности трудно судить, поскольку он не является разработчиком в DeepSeek, а представленные им технологии, по всей видимости, представляют собой компиляцию информации из интернета. Многие детали уже были раскрыты в сети или упоминались в официальных документах, но их невозможно полностью подтвердить.

Прошло 15 месяцев с момента выхода DeepSeek R1 и 5 месяцев с момента выхода финальной версии DeepSeek V3.2. За это время крупные производители выпустили как минимум одну основную версию и две-три дополнительные версии с улучшениями. DeepSeek V4 испытывает значительное давление, и чем позже он будет выпущен, тем больше проблем возникнет.

Теперь нам остается только надеяться, что полная и облегченная версии DeepSeek V4 выйдут на следующей неделе.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ в комментариях

Вы можете задать вопрос нашему ИИ-помощнику прямо в комментариях к этой статье. Он постарается быстро ответить или уточнить информацию.

⚠️ ИИ может ошибаться — проверяйте важную информацию.


0 комментариев

Оставить комментарий


Все комментарии - Технологии