DeepSeek выпустила модель V3.1 с контекстом в 128 тысяч токенов
Китайская компания DeepSeek, специализирующаяся на искусственном интеллекте, представила версию 3.1 своей флагманской языковой модели. Обновление увеличило окно контекста до 128 000 токенов, а количество параметров достигло 685 миллиардов. О релизе компания сообщила 19 августа через группу в WeChat, не анонсируя его на официальных страницах в соцсетях.
Что нового?
Самое значительное изменение в DeepSeek V3.1 — увеличенная длина контекста. Теперь модель может обрабатывать объём информации, эквивалентный книге в 300–400 страниц. Это улучшение позволяет добиться лучшей производительности при генерации длинных текстов, анализе технических документов и ведении многоуровневых диалогов. В официальной группе подтвердили, что расширенный контекст уже поддерживался внутри предыдущей версии V3, но теперь он официально активирован для всех интерфейсов.
Архитектура Mixture-of-Experts и результаты тестов
DeepSeek V3.1 продолжает использовать архитектуру Mixture-of-Experts (MoE), при этом на один токен активируется только 37 миллиардов параметров. Модель поддерживает несколько форматов точности, включая BF16, FP8 и F32, что обеспечивает гибкость для различных сред развёртывания. Разработчики могут получить доступ к модели через API или скачать её с Hugging Face под лицензией MIT.
Обновлённая модель показала хорошие результаты в ранних сторонних тестах. Она набрала 71,6% в тесте Aider по программированию, опередив Claude Opus 4 и став одной из сильнейших открытых моделей для кодинга. DeepSeek V3.1 также продемонстрировала улучшенную производительность в математических и логических задачах. Однако некоторые пользователи не заметили явного прогресса в рассуждениях по сравнению с более ранней моделью R1-0528.
Смена стратегии
DeepSeek убрала все упоминания модели R1 из интерфейса своего чат-бота, что сигнализирует о переходе к единой гибридной архитектуре. Похоже, компания интегрировала свои возможности для рассуждений в V3.1 вместо того, чтобы поддерживать отдельную модель.
Стоимость обучения V3.1 не раскрывается. Однако, согласно предыдущим отчётам, исходная модель V3 обучалась в течение 2,788 миллиона GPU-часов на чипах Nvidia H800 при ориентировочной стоимости 5,6 миллиона долларов (448 млн руб.). Эта модель стала основой для текущей версии, которая, вероятно, использует схожую инфраструктуру с дополнительными доработками.
Путаница с задержкой модели R2
Широко ожидалось, что следующим крупным релизом DeepSeek станет долгожданная модель R2, предназначенная для развития возможностей рассуждений. Однако вместо этого следующим шагом компании стала V3.1. Согласно недавнему отчёту Financial Times, выпуск модели R2 был отложен из-за сохраняющихся технических проблем с чипами Huawei Ascend AI.
Сообщается, что DeepSeek призывали использовать оборудование Ascend, чтобы снизить зависимость от Nvidia в соответствии с национальной стратегией Китая по самообеспечению в сфере ИИ. Несмотря на поддержку инженеров Huawei, обучение на Ascend провалилось из-за проблем с совместимостью и производительностью. Компания затем переключилась на использование GPU от Nvidia для обучения, оставив Ascend для вывода. Эта гибридная настройка привела к дополнительным осложнениям и задержкам. Кроме того, удлинилось время, затрачиваемое на разметку данных, что замедлило разработку. Сообщается, что основатель DeepSeek Лян Вэньфэн выражал разочарование медленным прогрессом.
Тем временем конкуренты, такие как Qwen3 от Alibaba, продвинулись вперёд, развернув аналогичные алгоритмы с более эффективным исполнением. Этот эпизод подчеркнул ограничения внутренней чиповой инфраструктуры Китая и вызовы, с которыми сталкиваются стартапы, пытающиеся одновременно удовлетворить политические и технические требования.
DeepSeek не исключает запуск R2. Однако, когда бы эта модель ни появилась, её производительность столкнётся с пристальным вниманием. До тех пор V3.1 остаётся текущим флагманом компании, работающим как с задачами на рассуждение, так и с другими в единой структуре.
0 комментариев