Google представила модель Gemini 2.5 Computer Use для взаимодействия с веб-интерфейсами как человек
Компания Google выпустила новую модель искусственного интеллекта под названием Gemini 2.5 Computer Use. Эта модель позволяет ИИ-агентам взаимодействовать с веб-сайтами и пользовательскими интерфейсами так, как это делал бы человек. Она уже доступна в публичном превью через Gemini API в Google AI Studio и Vertex AI.
Модель основана на возможностях визуального понимания и логического мышления Gemini 2.5 Pro. Она может выполнять широкий спектр действий в браузере, таких как клики, ввод текста, прокрутка, наведение курсора, открытие выпадающих списков и навигация по URL-адресам. В Google заявляют, что модель превосходит конкурирующие инструменты по нескольким тестам, включая Online-Mind2Web, WebVoyager и AndroidWorld, при этом сохраняя более низкую задержку.
В отличие от традиционных моделей ИИ, которые полагаются на API, Gemini 2.5 Computer Use обрабатывает скриншоты веб-интерфейсов и генерирует конкретные действия с UI в ответ. Агент получает задание, скриншот цифровой среды и историю последних действий. Затем он анализирует интерфейс и возвращает действие, например, нажатие на кнопку или ввод текста в поле. Действие выполняется на стороне клиента, и новый скриншот отправляется обратно в модель для продолжения задачи в цикле.
Google продемонстрировала производительность модели на примерах, где агент сортирует стикеры на цифровой доске и переносит данные о питомцах с одного веб-сайта в CRM-систему. Демонстрационные видео ускорены, чтобы показать процесс в реальном времени.
На данный момент модель поддерживает 13 действий и лучше всего работает с веб-браузерами. В Google отметили, что она пока не оптимизирована для задач на уровне операционной системы компьютера, хотя показала потенциал в мобильных тестах.
Google также внедрила меры безопасности для предотвращения злоупотреблений. Каждое действие, предлагаемое моделью, проверяется службой безопасности перед выполнением. Разработчики могут ограничивать определённые действия или требовать явного подтверждения пользователя для задач с высоким риском, таких как финансовые операции.
Несколько внутренних команд Google уже используют модель в рабочей среде. Она поддерживает тестирование интерфейсов и задачи автоматизации на таких платформах, как Search и Firebase. Внешние разработчики из программы раннего доступа использовали модель для создания инструментов автоматизации рабочих процессов и ассистентов.
Разработчики могут начать использовать модель через Google AI Studio или Vertex AI. Google также предоставляет демонстрационную среду через Browserbase для тестирования и экспериментов.
(Источник)
0 комментариев