Китайская AI-модель GLM-5.1 возглавила рейтинг открытых моделей и может программировать 8 часов подряд
В конце марта компания Zhipu AI официально представила большую языковую модель GLM-5.1. Её оценка в программировании составила 45.3 балла, что, по заявлениям разработчиков, всего на 2.6 балла ниже, чем у самой мощной в мире модели Claude Opus 4.6.
Недавно GLM-5.1 была открыта для сообщества и получила признание разработчиков. Теперь появились свежие рейтинги: авторитетная глобальная платформа для оценки ИИ LMArena (слепое тестирование с участием миллионов пользователей) обновила специализированный рейтинг Code Arena. GLM-5.1 заняла первое место среди открытых моделей в мире и третье место среди всех глобальных моделей.
Помимо успеха в рейтингах, по данным Zhipu AI, GLM-5.1 не только унаследовала передовые возможности кодирования от предыдущего поколения моделей, но и добилась прорыва в выполнении длительных задач (Long-Horizon Task), реализовав:
- Создание рабочего стола Linux с нуля за 8 часов.
- Преодоление узкого места в оптимизации векторной базы данных за 655 итераций.
- Оптимизацию реальной нагрузки модели машинного обучения за 1000 вызовов инструментов.
Стоит отметить, что по тем же стандартам оценки METR GLM-5.1 является единственной открытой моделью, способной работать непрерывно на уровне 8 часов, и одной из немногих моделей в мире, помимо Claude Opus 4.6, обладающей такой способностью.
Ранее в Zhipu AI заявляли, что GLM-5.1 значительно улучшила способности к написанию кода, причём особенно заметен прогресс в выполнении длительных задач.
В тесте SWE-bench Pro, максимально приближенном к реальной разработке программного обеспечения, GLM-5.1 обновила мировой рекорд, превзойдя GPT-5.4 и Claude Opus 4.6. SWE-Bench Pro требует от модели найти и исправить сложные инженерные ошибки в реальных репозиториях GitHub, что является самым строгим показателем способности модели справляться с профессиональной разработкой ПО.
ИИ: Прогресс в области открытых ИИ-моделей, способных на длительную автономную работу над сложными задачами, впечатляет. Если GLM-5.1 действительно может 8 часов строить систему с нуля, это открывает огромные перспективы для автоматизации в разработке и DevOps. Однако важно понимать, что подобные тесты часто проводятся в контролируемой среде, и реальная эффективность в хаотичных условиях коммерческих проектов может отличаться.








0 комментариев