ByteDance представила «второй мозг» для смартфона: новый ассистент Doubao умеет управлять телефоном
Компания ByteDance выпустила техническую превью-версию нового поколения голосового помощника Doubao для смартфонов. В отличие от традиционных ассистентов, которые могут только ставить будильники или сообщать о погоде, этот продукт позиционируется как настоящий «второй мозг» для телефона. Он обладает визуальным восприятием, долговременной памятью и способностью напрямую управлять устройством, фактически понимая, как использовать все функции смартфона.
Самым заметным прорывом помощника Doubao стала настоящая локальная память на устройстве. Это первая в отрасли реализация постоянной функции памяти непосредственно на смартфоне. Помощник может запоминать мелкие детали из жизни пользователя, как внимательный личный дворецкий.
На практических демонстрациях эта способность выглядит впечатляюще. Когда пользователь спрашивает, где он припарковал машину, ассистент может сразу вызвать фотографию парковочного места, сделанную в прошлый раз, и указать этаж.
Когда нужно забрать посылку, он мгновенно считывает историю SMS и сообщает код для выдачи; даже при запросе номера места в скоростном поезде помощник автоматически находит запись о покупке билета в приложении 12306 и сообщает точное расположение. Более того, эта память обладает ассоциативными способностями. Например, если помощник запомнил, что пользователю нравится Ван Гог, то при планировании поездки в Париж он автоматически порекомендует в первую очередь музей Орсе.
Если память — это основа, то кросс-приложенное автоматическое управление — это главный козырь помощника Doubao. Используя передовую технологию имитации нажатий через графический интерфейс (GUI), он может, как живой человек, захватывать управление экраном, выполняя автоматические нажатия, ввод текста и прокрутку поверх границ приложений.
В сценарии сравнения цен по всему интернету пользователю достаточно дать одну команду, и Doubao откроет Taobao, JD.com, Pinduoduo и TikTok Shop, за 3 секунды покажет самую низкую цену и сразу перейдет на страницу оплаты. В более сложных рабочих сценариях он может отреагировать на команду «Помоги взять три дня отпуска и заодно забронировать билет на скоростной поезд домой»: автоматически откроет рабочий софт, заполнит заявление на отпуск, отправит его на согласование, а затем плавно переключится на 12306, чтобы завершить бронирование билета и оплату.
Даже владельцы Tesla могут ощутить это удобство: по команде «Открой передний багажник, чтобы положить вещи» помощник может напрямую удаленно управлять автомобилем для выполнения операции.
В части мультимодального взаимодействия помощник продемонстрировал способность к пониманию визуальной информации в реальном времени. Когда пользователь подносит английскую детскую книгу к камере, помощник Doubao немедленно запускает режим видеозвонка в реальном времени.
На экране появятся не только субтитры на китайском и английском языках, но и ИИ сможет на беглом путунхуа или английском рассказывать историю, взаимодействуя с пользователем и задавая вопросы, а также импровизировать сюжет в зависимости от реакции ребенка, делая чтение живым и интересным.
Для нечетких и сложных многошаговых запросов в Doubao был введен Pro-режим. Этот режим сочетает имитацию нажатий через GUI, вызов инструментов по API и мощные способности к логическому выводу, позволяя выполнять задачи, которые раньше были не по силам ИИ.
На примере поездки в Париж: пользователю достаточно нечетко выразить пожелание «В следующем месяце еду в Париж, отметь сохраненные рестораны на карте и помоги купить билет в музей с выставкой, которая мне нравится», и помощник выполнит весь процесс.
Он сначала прочитает из памяти, что пользователю нравится Ван Гог, затем выполнит поиск, чтобы подтвердить, что в музее Орсе проходит специальная выставка Ван Гога, после чего откроет картографическое приложение, чтобы отметить сохраненные рестораны со звездами Мишлен, и, наконец, перейдет на официальный сайт, чтобы купить билет и сгенерировать полный маршрут, отправив его в заметки.
Демонстрируя мощные возможности, ByteDance также уделяет огромное внимание конфиденциальности и безопасности. Официальные представители неоднократно подчеркивали, что все данные памяти обрабатываются и хранятся в зашифрованном виде локально на телефоне и ни при каких обстоятельствах не загружаются в облако.
Пользователь имеет полный контроль и в любой момент может полностью отключить функцию памяти одним нажатием в настройках. Такой дизайн обеспечивает интеллектуальный опыт, оставаясь при этом по-настоящему контролируемым и надежным, предлагая новый подход к защите приватности в эпоху ИИ.













0 комментариев