Рейтинг мультимодальных ИИ-моделей: Gemini лидирует, Doubao в тройке лучших
Опубликованы результаты декабрьского этапа комплексного тестирования мультимодальных визуально-языковых моделей SuperCLUE-VLM.
Модель Gemini-3-pro от Google с результатом 83,64 балла уверенно возглавила рейтинг. Модель Doubao от ByteDance набрала 73,15 балла и вошла в тройку лидеров, продемонстрировав конкурентоспособность китайских разработок.
Оценка моделей проводилась по трём ключевым направлениям: базовое восприятие, визуальное мышление и практическое применение.
Лидер рейтинга, Gemini-3-pro, показала выдающиеся результаты во всех категориях: 89,01 балла за базовое восприятие, 82,82 за визуальное мышление и 79,09 за практическое применение.
Среди китайских моделей второе место заняла SenseNova V6.5 Pro от компании SenseTime с 75,35 балла. Визуальная версия Doubao от ByteDance расположилась на третьей позиции. Её результат в категории базового восприятия (82,70) оказался выше, чем у некоторых международных конкурентов, хотя в визуальном мышлении модель показала себя немного слабее.
В первую пятёрку также вошли китайские модели ERNIE-5.0-Preview от Baidu и Qwen3-vl от Alibaba. Qwen3-vl стала первой моделью с открытым исходным кодом в этом рейтинге, набравшей более 70 баллов в общем зачёте.
Из ведущих международных моделей Claude-opus-4-5 от Anthropic получила 71,44 балла, а GPT-5.2(high) от OpenAI набрала лишь 69,16 балла, заняв относительно низкие позиции.
Мультимодальные модели, способные одновременно обрабатывать текст и изображения, являются одним из самых быстрорастущих сегментов искусственного интеллекта. Их развитие критически важно для создания более продвинутых ассистентов, систем анализа медиаконтента и инструментов для творчества. Результаты тестов, подобных SuperCLUE-VLM, помогают разработчикам и бизнесу оценить текущий ландшафт и определить направления для будущих улучшений.








0 комментариев