Китайская модель GLM-5.1 впервые превзошла Claude Sonnet 4.5 Thinking в тестах на программирование
Скорость итерации китайских больших языковых моделей (LLM) продолжает удивлять. Компания Zhipu AI (智谱AI) недавно представила модель GLM-5.1, всего через месяц после выхода версии 5.0, и уже открыла доступ для всех пользователей подписок GLM Coding Plan (Lite/Pro/Max).
Официальный анонс GLM-5.1 был довольно скромным и в основном касался улучшений в области программирования. Согласно внутренним тестам компании, оценка модели в специализированных бенчмарках выросла с 35.4 у GLM-5.0 до 45.3 у GLM-5.1, отставая от лидера, модели Opus 4.6, всего на 2.6 балла.
Однако корпоративные тесты часто подвергаются сомнениям, поэтому реальную силу модели лучше оценивать по независимым испытаниям. И здесь GLM-5.1 показывает впечатляющие результаты, значительно опережая предыдущие китайские модели.
Программист под ником Toyama nao на платформе Zhihu создал собственный дашборд для тестирования LLM, который можно считать народным бенчмарком для оценки навыков программирования ИИ. Тест включает разработку проектов для десктопа, мобильных устройств и фронтенда:
- Проект C: Написание рендерера OpenGL для macOS на языке Swift. Проверяет знание нишевых языков, области компьютерной графики и сложного взаимодействия.
- Проект D: Разработка полнофункционального мессенджера на Flutter с бэкендом на Golang. Оценивает навыки мобильной разработки, работы с базами данных и обработки различных сетевых протоколов.
- Проект E: Создание веб-приложения для редактирования видео с выбором стека технологий. Тестирует знание фронтенд-стеков, обработку аудио/видео и управление сложным состоянием приложения.
Каждый проект проходит через 10-12 раундов промптов (подсказок), каждый из которых содержит подробные требования и критерии оценки. Средний объем промпта на проект составляет 1500-2000 слов.
Результаты теста, представленные на графике, говорят сами за себя. По словам Toyama nao, GLM-5.1 стала первой китайской моделью, успешно прошедшей все его тестовые проекты. Более того, это первая китайская модель, официально превзошедшая Claude Sonnet 4.5 Thinking в этом комплексном испытании.
Это означает, что GLM-5.1 пока не может сравниться с флагманскими моделями, такими как Claude Opus 4.6 или Sonnet 4.6. Однако для разработчиков преодоление планки, установленной Sonnet 4.5 Thinking, — это серьезное достижение с практической ценностью.
Тестер отмечает, что GLM-5.1 значительно расширила адаптивность в программировании. Она перестала быть «чемпионом только по фронтенду» или поверхностным инструментом для одноразовых задач. Теперь модель способна выступать в роли основного помощника в сложных рабочих условиях.
Конечно, у GLM-5.1 есть и недостатки. Главная проблема, которую выделил Toyama nao, — это склонность к «галлюцинациям» (генерации неверной информации) при работе с очень длинным контекстом. Его совет: если модель не может исправить проблему за 2 раунда, не стоит надеяться на чудо — лучше начать диалог заново.
В качестве дополнительного примера можно привести тест от пользователя Mozi с форума Linux.do, проведенный сразу после выхода модели. Задача заключалась в создании симулятора кубика Рубика. С ней не справлялось большинство моделей, включая многие зарубежные, и лишь несколько топовых решений давали верный результат. GLM-5.1 также успешно справилась с этой задачей.
В целом, релиз GLM-5.1 был стремительным и без лишних деталей, но практические тесты подтверждают значительный скачок в способностях к программированию. Модель вышла на уровень, превосходящий Sonnet 4.5 Thinking, хотя до абсолютных лидеров рынка еще есть небольшое расстояние.
AI-программирование сегодня — один из самых зрелых и коммерчески успешных путей для больших моделей. Китайским разработчикам критически важно конкурировать на этом поле. Прогресс GLM очевиден, но, как всегда, помимо возможностей самой модели, успех будет определяться инфраструктурой и пользовательским опытом.
В последнее время подписка Coding Plan от Zhipu AI сталкивается с растущим числом жалоб из-за высокого спроса. Рост цены — не самая большая проблема, так как она по-прежнему намного ниже, чем у Claude. Однако нехватка вычислительных мощностей, ведущая к снижению скорости и стабильности работы, — это серьезный вызов, требующий огромных инвестиций. Компания, безусловно, уделяет этому внимание, но пользователям в процессе приходится непросто.
ИИ: Прорыв GLM-5.1 — отличная новость для разработчиков, ищущих альтернативу западным моделям. Хотя до полного паритета с лидерами вроде Claude Opus еще далеко, прогресс налицо. Ключевой вопрос теперь — сможет ли Zhipu AI обеспечить стабильную и мощную инфраструктуру, чтобы пользователи по-настоящему ощутили преимущества новой модели, а не столкнулись с ограничениями из-за нехватки вычислительных ресурсов.









0 комментариев