DeepSeek V4 могут представить в октябре с поддержкой китайских AI-чипов
Китайская компания DeepSeek неожиданно выпустила большую модель DeepSeek v3.2-Exp. Это ещё один важный шаг после выхода финальной версии DeepSeek v3.1 несколько дней назад. Это соответствует традиции DeepSeek выпускать новые модели перед крупными праздниками.
У DeepSeek v3.2 много достоинств, но не стоит зацикливаться на её мощности. Суффикс exp в названии модели говорит о том, что она, по сути, используется DeepSeek для исследования новых технологий, и в этом её ценность.
DeepSeek Sparse Attention (DSA) впервые реализует механизм мелкозернистого разреженного внимания, значительно повышая эффективность обучения и вывода на длинных текстах, не влияя на выходной эффект модели.
DeepSeek v3.2 — это всё ещё небольшое улучшение версии. Больше всего всех волнует обновление основной версии DeepSeek, о которой давно говорят, — это DeepSeek v4 и r2, особенно такая большая базовая модель, как v4.
В аккаунте DeepSeek News Commentary говорится, что версия 4 выйдет в октябре и принесет 1 миллион контекстов, рассуждения на основе GRPO и технологии NSA/SPCT, которые значительно улучшат математические и программные возможности, будучи при этом чрезвычайно быстрыми и недорогими.
Местоположением этого аккаунта также является Ханчжоу, однако на данный момент он не является официальным аккаунтом DeepSeek, и подлинность новостей вызывает сомнения.
Тем не менее, выпуск DeepSeek v4 в октябре не является полностью невозможным. В конце концов, DeepSeek v3.2 находится на пути к технической проверке и открывает путь к серьёзным техническим обновлениям DeepSeek v4.
Стоит также отметить, что DeepSeek v4, как сообщалось, был выпущен ещё в апреле-мае, но официальный представитель остался непреклонен. В этот период появлялись и негативные новости, например, о сбоях в обучении. Однако эти слухи не заслуживают доверия.
Выпуск DeepSeek v4 должен предоставить важную возможность для полной адаптации к китайским вычислительным чипам. Представители DeepSeek ранее дали понять, что следующее поколение будет поддерживать алгоритм FP8 и будет полностью совместимо с китайскими чипами.
Многие китайские чипы искусственного интеллекта уже заявили о поддержке алгоритмов FP8, но для этой адаптации, очевидно, нужен лидер, которым, очевидно, является Huawei Ascend. В связи с громким анонсом Huawei о дорожной карте Ascend, сделанным несколько дней назад, Ascend 950PR в первом квартале следующего года будет поддерживать не только FP4, но и FP4 с вычислительной мощностью 1 ПФЛОПС (FP8) / 2 ПФЛОПС (FP4), поддержкой FP32/HF32/FP16/BF16/FP8/MXFP8 /HiF8/MXFP4/HiF4 и других форматов данных, пропускной способностью межсоединения 2 ТБ/с, объёмом памяти и пропускной способностью 144 ГБ и 4 ТБ/с соответственно.
Очевидно, что запуск Ascend 950PR станет лучшим временем для дебюта DeepSeek V4. Появились новости о том, что DeepSeek использует китайские ИИ-чипы для обучения. Версия 3.2 поддерживает как CUDA, так и CANN от Huawei, и V4, естественно, не останется в стороне.
В будущем DeepSeek v4 наверняка получит адаптированные версии для других китайских ИИ-чипов, включая Cambrian, Haiguang и т. д.
0 комментариев