Сводка тестов DeepSeek V4: принесёт ли 15-месячное ожидание мировое лидерство в AI?
Долгожданная модель DeepSeek V4 была представлена сегодня. С момента выхода R1 в январе прошлого года прошло 15 месяцев — срок, за который индустрия искусственного интеллекта успела пережить не одну смену лидеров. Ожидания от новой версии были высоки: пользователи надеялись увидеть модель, способную на равных конкурировать с топовыми решениями от ведущих компаний, особенно в таких актуальных направлениях, как AI-программирование и работа агентов.
В официальном анонсе DeepSeek отмечается значительное улучшение агентных способностей V4-Pro по сравнению с предшественником. В бенчмарке Agentic Coding новая модель достигла лучшего результата среди открытых моделей, а в других тестах на агентов также показала отличные результаты. Разработчики сообщают, что DeepSeek-V4 уже используется внутри компании как модель для кодинга, и по отзывам сотрудников, она превосходит Sonnet 4.5 и по качеству близка к Opus 4.6 в режиме без рассуждений, хотя с включённым режимом рассуждений Opus 4.6 всё ещё впереди.
Помимо официальных данных, в сети появились результаты независимых тестов и рейтингов. На площадке arena.ai оцениваются текстовые способности и навыки программирования (мультимодальность V4 не поддерживает).
В текстовом рейтинге модель заняла 20-е место, а с включённым режимом рассуждений (thinking) показала результат даже ниже.
В категории кодинга DeepSeek V4 — на 14-й позиции. Лучшей среди китайских моделей здесь оказалась GLM-5.1, занявшая 5-е место.
По данным рейтинга vals.ai, V4 стала лучшей среди открытых моделей, заняв девятое место в мире, однако отрыв от первой тройки по-прежнему значителен.
Пользователи из сообщества Linux.do провели собственное сравнение и пришли к выводу, что V4 Pro уступает даже GLM-5.1 и существенно отстаёт от топ-3. Таким образом, DeepSeek V4 действительно демонстрирует серьёзный прогресс в программировании, превосходя Sonnet 4.5 и приближаясь к Opus 4.6, но до его режима рассуждений ещё далеко.
В целом DeepSeek-V4 показала улучшения в AI-кодинге, но назвать это прорывом нельзя. Разрыв с лидирующими моделями от ведущих компаний всё ещё велик. Кроме того, хотя стоимость Pro-версии ниже, чем у конкурентов, она уже не кажется такой доступной, как раньше — зато Flash-версия сохраняет преимущество по соотношению цена/качество.
За 15 месяцев DeepSeek столкнулась с огромным давлением: с одной стороны, санкции США ограничивают доступ к вычислительным ресурсам, с другой — компания взяла на себя задачу адаптации под китайские AI-чипы, что также замедляет разработку. Выход V4 состоялся, но за это время и зарубежные гиганты, и китайские конкуренты (Kimi, GLM, MiniMax) совершили несколько циклов обновлений, и многие из них имеют больше ресурсов или доступ к финансированию.
Остаётся надеяться, что DeepSeek сможет решить проблемы с производительностью и стоимостью V4, а последующие версии (4.1 или 4.2) покажут более впечатляющие результаты. Что касается следующего поколения — DeepSeek-V5, хотелось бы, чтобы оно вышло до конца этого года, а не через 15 месяцев.











0 комментариев