DeepSeek V4 может получить 1,6 триллиона параметров, что на 60% выше ожиданий

До конца апреля осталось всего несколько дней, и сообщество с нетерпением ждёт анонса новой языковой модели DeepSeek V4. Вчера исследователи компании неожиданно обновили библиотеку операторов DeepGEMM, что было воспринято как предвестник скорого релиза V4.

Однако команда, по-видимому, предвидела такую реакцию и добавила к обновлению специальное примечание, подчеркнув, что это обновление связано исключительно с разработкой DeepGEMM и не имеет отношения к выпуску внутренних моделей. Другими словами, это не означает, что V4 вот-вот выйдет.

Но чем больше таких заявлений, тем выше интерес к DeepSeek V4, поскольку обновление DeepGEMM содержит несколько важных улучшений, которые вряд ли не связаны с новой большой моделью.

Помимо поддержки гибридных операторов FP8_FP4 и оптимизации для архитектуры NVIDIA Blackwell, ключевыми архитектурными улучшениями стали Mega MoE и HyperConnection. В частности, Mega MoE может стать серьёзным шагом вперёд для архитектуры Mixture of Experts.

Преимуществ у Mega MoE много. Анализ, основанный на Gemini, намекает, что количество активных экспертов в V4 будет значительно выше, чем 256 в V3, и может достигать тысяч. Это должно резко повысить производительность V4, сохраняя при этом гибкость и не предъявляя запредельных требований к вычислительным мощностям и видеопамяти.

Что ещё важнее, обновление DeepGEMM также намекает на количество параметров модели V4. По оценкам пользователей сети, один слой MoE составляет около 25,37 миллиарда параметров. Если модель сохранит 60 слоёв, то V4, скорее всего, будет иметь 1,6 триллиона параметров. В худшем случае, при 48 слоях, это будет 1,25 триллиона параметров.

По сравнению с предыдущими слухами о модели с 1 триллионом параметров, показатель в 1,6 триллиона означает превышение ожиданий на 60%, что делает потенциальную производительность модели крайне интригующей.

Даже если цели в 1,6 триллиона не будет достигнута, модель с 1,25 триллиона параметров всё равно окажется вдвое больше текущей DeepSeek V3 с её 670 миллиардами параметров. В сочетании с технологией Mega MoE и тысячами активных экспертов это может стать настоящим прорывом и вехой в развитии больших моделей на основе архитектуры MoE.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ в комментариях

Вы можете задать вопрос нашему ИИ-помощнику прямо в комментариях к этой статье. Он постарается быстро ответить или уточнить информацию.

⚠️ ИИ может ошибаться — проверяйте важную информацию.


0 комментариев

Оставить комментарий


Все комментарии - Технологии