GLM-5V-Turbo: новая модель от Zhipu AI, которая пишет код по картинке

Китайская компания Zhipu AI представила многофункциональную модель GLM-5V-Turbo, созданную для визуального программирования.

Эта модель с самого этапа предварительного обучения глубоко интегрирует возможности обработки визуальной и текстовой информации. Она преодолевает ограничения чисто текстового ввода, умеет «понимать» макеты дизайна, скриншоты, веб-интерфейсы и генерировать на их основе исполняемый код, реализуя принцип «видит картинку — пишет код».

GLM-5V-Turbo обладает тремя ключевыми особенностями:

  • Нативная многофункциональная основа для программирования: Может изначально понимать изображения, видео, дизайн-макеты и другие типы ввода, поддерживает вызов мультимодальных инструментов, таких как рисование рамок и создание скриншотов. Контекстное окно расширено до 200 тысяч токенов, что позволяет агентам воспринимать и действовать на основе визуального взаимодействия.
  • Баланс между визуальными и программистскими способностями: Показывает лидирующие результаты в ключевых тестах по мультимодальному программированию и GUI-агентам. При этом, благодаря технологии RL с многофункциональной координацией, способности к программированию и логическим рассуждениям в чисто текстовых сценариях не деградируют.
  • Глубокая адаптация к Claude Code и сценариям Claw: Может реализовывать полный цикл «понимание среды → планирование действий → выполнение задачи». Также модель оснащена полным набором официальных «скиллов» (Skills) и готова к использованию «из коробки».

Тестовые данные показывают, что GLM-5V-Turbo демонстрирует лидерство в таких задачах, как воссоздание дизайн-макетов и генерация кода по визуальным данным. Модель также выделяется в тестах на управление графическими средами, такими как AndroidWorld и WebVoyager, сохраняя при этом стабильные возможности в области чистого текстового программирования.

В тестах, связанных с агентом Claw, интеграция модели наделила Claw настоящими визуальными способностями. Система показала отличные результаты в таких тестах, как PinchBench, подтвердив свою способность выполнять сложные задачи.

В настоящее время GLM-5V-Turbo уже применяется в типичных сценариях, таких как «изображение как код» и визуальное усиление Claw. Модель может воссоздавать фронтенд, автономно исследовать и копировать графические интерфейсы, а также позволяет Claw выполнять такие задачи, как интерпретация графиков K-line и генерация отчетов с изображениями и текстом.

Пользователи могут опробовать возможности модели через такие продукты, как AutoClaw и Z.ai, или получить доступ через официальный API. Несколько официальных Skills также уже доступны на платформе ClawHub.

Интересный факт: Развитие мультимодальных ИИ-моделей, способных понимать и связывать визуальную и текстовую информацию, является одним из ключевых трендов в машинном обучении. Такие системы открывают путь к созданию более интеллектуальных и автономных цифровых помощников, которые смогут не только отвечать на вопросы, но и взаимодействовать с графическими интерфейсами, автоматизировать рутинные задачи и даже помогать в разработке программного обеспечения, глядя на скриншот или макет.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.


0 комментариев

Оставить комментарий


Все комментарии - Технологии