Новая китайская модель с триллионом параметров — не DeepSeek V4
В сети появилась информация о новой крупной языковой модели, что вызвало оживлённые обсуждения. Ранее ходили слухи о скором выходе самой ожидаемой на внутреннем рынке модели DeepSeek V4, но этого не произошло.
Новая модель снова была замечена на платформе OpenRuter. Было представлено два алгоритма. Один из них, под кодовым названием Hunter Alpha, обладает 1 триллионом параметров, поддерживает контекстное окно в 1 миллион токенов и способен на мультимодальный вывод.
Второй алгоритм, Healer Alpha, также является мультимодальным, поддерживает 262 000 токенов контекста и работает быстрее, однако точное количество его параметров не раскрывается.
Многие предположили, что Hunter Alpha — это и есть грядущая DeepSeek V4. Однако, эксперт по оценке больших моделей ИИ @karminski-dentist заявил, что это не V4, а, вероятно, новая модель от компании Zhipu AI, возможно, их флагманская модель следующего поколения.
Стиль работы DeepSeek также говорит против этой версии. Компания обычно не тестирует новые продукты на публичных платформах вроде OpenRuter перед релизом. Вместо этого они предпочитают тихий запуск, а затем подтверждение новинки через короткое сообщение в групповом чате.
Слухи о DeepSeek V4 в последнее время множились: утверждалось, что модель будет иметь 1 триллион параметров, архитектуру Mixture of Experts (MOE) с 32 миллиардами активируемых параметров, контекстное окно в 1 миллион токенов, нативную мультимодальность и будет оптимизирована под китайский чип Ascend 910C, а не только под решения NVIDIA или AMD.
Достоверность большинства утечек остаётся низкой. Наиболее правдоподобной выглядит информация от известного эксперта по квантованию моделей @bdsqlsz, который, как выяснилось, загрузил веса модели под названием DeepSeek-V4-INT8 на платформу HuggingFace. Это указывает на поддержку 8-битного квантования (INT8) в V4 и, что важнее, на её скорый релиз.
Также сообщается, что DeepSeek запросила у своих поставщиков обеспечить стабильность работы в период с 6 по 20 июня, а в последние дни проводились финальные стресс-тесты, что также намекает на близкий выход продукта.
Ожидание, судя по всему, подходит к концу. Китайские компании активно соревнуются в создании всё более мощных ИИ-моделей, стремясь достичь и превзойти уровень западных аналогов. DeepSeek уже зарекомендовала себя как серьёзный игрок на рынке, а её новая флагманская модель, вероятно, станет важной вехой в развитии открытых языковых моделей.








0 комментариев