Alibaba представила языковую модель Qwen3-Max с триллионом параметров
Китайский гигант Alibaba представил свою новейшую крупную языковую модель Qwen3-Max, которая позиционируется как прямой конкурент ChatGPT от OpenAI, Gemini от Google и Claude от Anthropic.
Технические характеристики
Главной особенностью Qwen3-Max является её масштаб: модель содержит более 1 триллиона параметров и была обучена на 36 триллионах токенов. Для повышения эффективности разработчики использовали архитектуру Mixture-of-Experts (MoE), которая активирует только необходимые «экспертные» блоки сети для каждой задачи, а не всю модель целиком.
Инженерам компании удалось стабилизировать процесс обучения, применив метод «global-batch load balancing loss». Это позволило избежать сбоев и перезапусков в ходе тренировки модели.
Ключевые улучшения
Скорость обучения: Благодаря оптимизации PAI-FlashMoE пропускная способность при обучении увеличилась на 30% по сравнению с предыдущей версией Qwen2.5-Max.
Работа с длинными контекстами: Модель поддерживает контекстное окно до 1 миллиона токенов. Технология ChunkFlow обеспечивает трёхкратное ускорение обработки длинных текстов по сравнению с традиционными методами.
Надёжность: Внедрённые системы SanityCheck и EasyCheckpoint сократили простои из-за сбоев оборудования в пять раз.
Производительность
Доступная для пользователей версия Qwen3-Max-Instruct демонстрирует высокие результаты:
- Занимает 3-е место в общем рейтинге LMArena, опережая GPT-5-Chat.
- Набирает 69.6 баллов на SWE-Bench Verified (тестирование решения реальных задач с GitHub), превосходя DeepSeek V3.1.
- Показывает результат 74.8 на Tau2-Bench (оценка использования API и инструментов), обходя Claude Opus 4.
Также ведётся работа над специализированной версией Qwen3-Max-Thinking, ориентированной на логические рассуждения. В предварительных тестах с использованием инструментов и параллельных вычислений она показала 100% результат на сложных математических бенчмарках AIME 25 и HMMT.
Доступность
Обычные пользователи могут опробовать Qwen3-Max-Instruct через мобильное приложение Qwen (для iOS и Android) или на официальном сайте. Разработчикам модель доступна через API в сервисе Alibaba Cloud Model Studio для интеграции в свои приложения.
Анонс Qwen3-Max знаменует выход Alibaba в лигу компаний, способных создавать и развёртывать триллионные модели, что усиливает конкуренцию на рынке искусственного интеллекта.
0 комментариев