DeepSeek V4 может получить 1,6 триллиона параметров, что на 60% выше ожиданий

17 апреля 2026, 14:46 / Технологии → Новости / Технологии

До конца апреля осталось всего несколько дней, и сообщество с нетерпением ждёт анонса новой языковой модели DeepSeek V4. Вчера исследователи компании неожиданно обновили библиотеку операторов DeepGEMM, что было воспринято как предвестник скорого релиза V4.

Однако команда, по-видимому, предвидела такую реакцию и добавила к обновлению специальное примечание, подчеркнув, что это обновление связано исключительно с разработкой DeepGEMM и не имеет отношения к выпуску внутренних моделей. Другими словами, это не означает, что V4 вот-вот выйдет.

Но чем больше таких заявлений, тем выше интерес к DeepSeek V4, поскольку обновление DeepGEMM содержит несколько важных улучшений, которые вряд ли не связаны с новой большой моделью.

Помимо поддержки гибридных операторов FP8_FP4 и оптимизации для архитектуры NVIDIA Blackwell, ключевыми архитектурными улучшениями стали Mega MoE и HyperConnection. В частности, Mega MoE может стать серьёзным шагом вперёд для архитектуры Mixture of Experts.

Преимуществ у Mega MoE много. Анализ, основанный на Gemini, намекает, что количество активных экспертов в V4 будет значительно выше, чем 256 в V3, и может достигать тысяч. Это должно резко повысить производительность V4, сохраняя при этом гибкость и не предъявляя запредельных требований к вычислительным мощностям и видеопамяти.

Что ещё важнее, обновление DeepGEMM также намекает на количество параметров модели V4. По оценкам пользователей сети, один слой MoE составляет около 25,37 миллиарда параметров. Если модель сохранит 60 слоёв, то V4, скорее всего, будет иметь 1,6 триллиона параметров. В худшем случае, при 48 слоях, это будет 1,25 триллиона параметров.

По сравнению с предыдущими слухами о модели с 1 триллионом параметров, показатель в 1,6 триллиона означает превышение ожиданий на 60%, что делает потенциальную производительность модели крайне интригующей.

Даже если цели в 1,6 триллиона не будет достигнута, модель с 1,25 триллиона параметров всё равно окажется вдвое больше текущей DeepSeek V3 с её 670 миллиардами параметров. В сочетании с технологией Mega MoE и тысячами активных экспертов это может стать настоящим прорывом и вехой в развитии больших моделей на основе архитектуры MoE.