Anthropic представила Claude Opus 4.8: три мировых рекорда в бенчмарках

1 час назад / Технологии → Новости / Технологии

Компания Anthropic 28 мая 2026 года представила свою новейшую флагманскую большую языковую модель Claude Opus 4.8. Согласно последнему китайскому бенчмарку SuperCLUE, эта модель заняла первое место в мире по трем ключевым показателям: генерации кода, контролю галлюцинаций и научным рассуждениям.

В области генерации кода Opus 4.8 набрала 83,58 балла, опередив ближайшего конкурента более чем на 2 балла. По сравнению с предыдущей версией 4.7, прирост составил более 4,5 балла. Модель также лидирует в задачах, связанных с программной инженерией, уверенно справляясь как с самостоятельным написанием кода, так и с веб-разработкой.

Показатель контроля галлюцинаций достиг 87,48 балла, что также является лучшим результатом в мире. Улучшение по сравнению с предыдущей версией составило более 6 баллов. Это означает, что модель значительно реже выдает вымышленную информацию, ее ответы стали более надежными, что особенно важно для профессионального использования.

В тесте на научные рассуждения модель набрала 77,19 балла, снова заняв первое место. По сравнению с версией 4.7, улучшение составило почти 9 баллов, что свидетельствует о значительном прогрессе в вычислительных и логических задачах.

Общий индекс интеллекта модели составляет 73,93 балла, что ставит ее в один ряд с GPT-5.5 и Gemini 3.1 Pro Preview. Скорость вывода ответов осталась на прежнем уровне, а цены на API не изменились — модель по-прежнему относится к категории высокой производительности, но с относительно низкой ценовой эффективностью.

Вместе с тем, у Opus 4.8 есть и небольшие недостатки. Наблюдается некоторое снижение показателей в планировании задач для агентов, математических рассуждениях и следовании инструкциям. Особенно заметно снижение по критерию следования инструкциям, хотя на повседневное использование это влияет незначительно.

В целом, Opus 4.8 делает акцент на улучшении навыков программирования, достоверности ответов и научных рассуждений. Модель очень удобна для разработчиков и исследователей и в настоящее время является одной из самых сбалансированных флагманских моделей по совокупности возможностей.