Google DeepMind хочет «переизобрести» курсор мыши с помощью ИИ
Не сомневаюсь, что под монолитным термином «ИИ» скрывается хотя бы одна технология, достойная применения. К сожалению, крупные игроки технологической индустрии, похоже, озабочены изобретением велосипеда и внедрением ненужных «агентных» функций. Очередной пример — последний экспериментальный демонстрационный проект Google DeepMind, который пытается наделить ваш скромный курсор мыши возможностями искусственного интеллекта.
«Курсор мыши — это то, о чем все забыли», — утверждает Адриен Баранес, штатный исследователь, занимающийся прототипированием взаимодействия человека и ИИ в Google DeepMind. «А что, если бы за указателем стояла модель ИИ, например Gemini, которая пыталась бы интерпретировать всё, что мы говорим, как это сделал бы другой человек?»
Справедливости ради, отдача голосовых команд Gemini действительно сокращает стандартный, трудоемкий процесс копирования и вставки ингредиентов рецепта в список покупок на значительное количество кликов. Но этот демонстрационный проект с курсором интересен еще и тем, как он пытается решать контекстуальные задачи, которые ставят в тупик многие модели ИИ.
По сути, вместо того чтобы полагаться на способность модели ИИ последовательно отличать список покупок от рецепта, драки с едой и костюма гамбургера, используется комбинация жестов курсора и естественных команд вроде «перемести это сюда», чтобы указать ИИ правильное направление.
«Современные модели требуют точных инструкций, но наш указатель с поддержкой ИИ снимает это бремя», — сообщает Google DeepMind. «„Видя“, что находится под вашим курсором, он мгновенно понимает, с каким конкретным словом, изображением или блоком кода вам нужна помощь».
Мы переосмысливаем 50-летний интерфейс — указатель мыши — с помощью ИИ. Эти экспериментальные демонстрации показывают, как люди могут интуитивно управлять Gemini на своих экранах с помощью движений, речи и естественных сокращений, чтобы выполнять задачи.
Другой пример, рассматриваемый в этих ранних технологических демонстрациях, включает просмотр видео «10 лучших мест, где можно поесть в Токио», перетаскивание курсора на вывеску заведения, после чего Gemini в «агентном» режиме проводит пользователя через процесс бронирования столика на следующий вечер. Оставляя в стороне хорошо известные проблемы безопасности, связанные с предоставлением ИИ-агенту доступа к вашим электронным письмам или другим важным данным, я также задаюсь вопросом, как эта технология будет обрабатывать случайные клики — по крайней мере, в примере с рестораном, кажется, есть несколько шагов, от которых пользователь может легко отказаться.
В остальном я не уверен, что этот «50-летний интерфейс» действительно нуждался в «перезагрузке» с помощью ИИ. Помимо очевидного аргумента «работает — не трогай», я не думаю, что мне было бы комфортно позволять Gemini «видеть» мой рабочий стол.
Чтобы было ясно, если вы включите «Умные функции» в Gmail и позволите Gemini организовывать ваш почтовый ящик, Google не будет сканировать ваши письма для обучения своего ИИ. Вместо этого в официальной документации поддержки приложений Gemini говорится, что «сводки, выдержки, сгенерированный медиаконтент и выводы», полученные в результате ваших запросов к ИИ, используются в качестве обучающих данных.
Таким образом, если бы демонстрационный проект с курсором стал более широко доступен, скорее всего, Gemini не стал бы доносить Google о содержимом вашего SSD, хотя потенциально он мог бы рассказать Google, чем вы занимаетесь весь день за своим столом. Лично я предпочел бы, чтобы никто не знал, как часто я неправильно пишу слова, не говоря уже о чем-то другом.







0 комментариев