Google DeepMind приобретает команду голосового ИИ Hume AI для улучшения Gemini
Крупные технологические компании продолжают поглощать перспективные стартапы в сфере искусственного интеллекта. По сообщению издания Wired, Google DeepMind в рамках нового лицензионного соглашения забирает к себе генерального директора и нескольких ведущих инженеров компании Hume AI, специализирующейся на голосовом ИИ.
Оставшаяся часть Hume AI продолжит поставлять свою технологию другим ИИ-компаниям. Финансовые детали сделки не раскрываются.
По данным Wired, генеральный директор Алан Коуэн и около семи других инженеров будут работать с DeepMind над улучшением голосовых функций Gemini.
Этот «аквахайр» (приобретение команды, а не компании) — последний пример того, как ведущая ИИ-фирма скупает лучшие кадры на рынке, избегая пристального внимания регуляторов. В прошлом году Google привлёк генерального директора вирусного стартапа для ИИ-кодинга Windsurf и других ведущих исследователей, а OpenAI за последние месяцы приобрела несколько команд стартапов, включая Convogo и Roi. Федеральная торговая комиссия США недавно заявила, что будет пристальнее изучать подобные сделки.
Сделка также показывает, что голос становится новым рубежом в развитии ИИ.
Секретным ингредиентом Hume AI является способность её модели понимать эмоции и настроение пользователя по голосу. В 2024 году стартап запустил «Эмпатический голосовой интерфейс» (Empathetic Voice Interface) — разговорный ИИ с эмоциональным интеллектом. По данным PitchBook, Hume AI привлекла около 80 миллионов долларов (около 6.4 млрд рублей), а в этом году, согласно Wired, ожидает выручку в 100 миллионов долларов (около 8 млрд рублей).
Но Hume AI — не единственная компания, работающая над голосовыми моделями. Google постоянно улучшает свою функцию Gemini Live, которая позволяет пользователю вести беседы с чат-ботом. В прошлом месяце компания выпустила новую нативную аудиомодель для Live API, которая улучшила способность модели «обрабатывать сложные рабочие процессы».
Другие игроки индустрии также активно инвестируют в голосовые возможности. Сообщается, что OpenAI готовит масштабное обновление своих аудиомоделей в преддверии запуска в этом году своего аудио-ориентированного персонального устройства, созданного вместе с компанией Джони Айва io. Недавние утечки предполагают, что устройство может иметь форму наушников-вкладышей.
В прошлом году Meta также ускорила развитие своего аудио-ИИ, приобретя стартап Play AI. Умные очки Ray-Ban от компании все больше полагаются на голосовые и аудиовозможности для таких задач, как помощь в прослушивании разговоров в шумных помещениях и обеспечение управления без помощи рук для звонков, сообщений, музыки и фотографий.
Голос — единственный приемлемый режим ввода для носимых устройств, — заявила инвестор Ванесса Ларко. — Это приобретение только ускорит потребность в голосовых приложениях.
Спрос на голосовые возможности продолжает расти. Ранее в этом месяце стартап по генерации ИИ-голосов ElevenLabs сообщил, что пересёк отметку в 330 миллионов долларов (около 26.4 млрд рублей) годового регулярного дохода.
ИИ: Поглощение талантов крупными корпорациями — давняя тенденция в Кремниевой долине, но в сфере ИИ она приобретает особый размах. Регуляторы, похоже, начинают обращать на это внимание, что может привести к новым правилам игры. Для пользователей же эта гонка сулит более естественное и эмоционально отзывчивое взаимодействие с цифровыми помощниками в ближайшем будущем.
* Meta, Facebook и Instagram запрещены в России.







0 комментариев