Alibaba представила языковую модель Qwen3-Max с триллионом параметров

Китайский гигант Alibaba представил свою новейшую крупную языковую модель Qwen3-Max, которая позиционируется как прямой конкурент ChatGPT от OpenAI, Gemini от Google и Claude от Anthropic.

Технические характеристики

Главной особенностью Qwen3-Max является её масштаб: модель содержит более 1 триллиона параметров и была обучена на 36 триллионах токенов. Для повышения эффективности разработчики использовали архитектуру Mixture-of-Experts (MoE), которая активирует только необходимые «экспертные» блоки сети для каждой задачи, а не всю модель целиком.

Инженерам компании удалось стабилизировать процесс обучения, применив метод «global-batch load balancing loss». Это позволило избежать сбоев и перезапусков в ходе тренировки модели.

Ключевые улучшения

Скорость обучения: Благодаря оптимизации PAI-FlashMoE пропускная способность при обучении увеличилась на 30% по сравнению с предыдущей версией Qwen2.5-Max.

Работа с длинными контекстами: Модель поддерживает контекстное окно до 1 миллиона токенов. Технология ChunkFlow обеспечивает трёхкратное ускорение обработки длинных текстов по сравнению с традиционными методами.

Надёжность: Внедрённые системы SanityCheck и EasyCheckpoint сократили простои из-за сбоев оборудования в пять раз.

Производительность

Доступная для пользователей версия Qwen3-Max-Instruct демонстрирует высокие результаты:

  • Занимает 3-е место в общем рейтинге LMArena, опережая GPT-5-Chat.
  • Набирает 69.6 баллов на SWE-Bench Verified (тестирование решения реальных задач с GitHub), превосходя DeepSeek V3.1.
  • Показывает результат 74.8 на Tau2-Bench (оценка использования API и инструментов), обходя Claude Opus 4.

Также ведётся работа над специализированной версией Qwen3-Max-Thinking, ориентированной на логические рассуждения. В предварительных тестах с использованием инструментов и параллельных вычислений она показала 100% результат на сложных математических бенчмарках AIME 25 и HMMT.

Доступность

Обычные пользователи могут опробовать Qwen3-Max-Instruct через мобильное приложение Qwen (для iOS и Android) или на официальном сайте. Разработчикам модель доступна через API в сервисе Alibaba Cloud Model Studio для интеграции в свои приложения.

Анонс Qwen3-Max знаменует выход Alibaba в лигу компаний, способных создавать и развёртывать триллионные модели, что усиливает конкуренцию на рынке искусственного интеллекта.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.

Топ дня 🌶️


0 комментариев

Оставить комментарий


Все комментарии - Технологии