OpenAI дает ChatGPT голос для общения
ChatGPT превращается в нечто большее, чем текстовую поисковую систему — OpenAI добавила новые голосовые и графические функции к чат-боту.
С момента своего дебюта около девяти месяцев назад чрезвычайно популярный генеративный ИИ-помощник стал одним из крупнейших технологических успехов последнего времени. Он позволяет создавать эссе, стихи и резюме на основе простых текстовых подсказок. Но теперь ChatGPT станет намного более интерактивным: пользователи смогут общаться с чат-ботом голосовым способом.
Например, пользователь сможет устно попросить ChatGPT сочинить сказку на ночь с несколькими голосовыми подсказками для направления повествования. Или пользователь может просто задать чат-боту вопрос, а ChatGPT даст ответ в устной форме.
Кроме того, пользователи ChatGPT также смогут искать ответы с помощью изображений, например, загружая картинку чего-либо и прося ChatGPT объяснить, что это такое.
Голосовая функция основана на новой модели преобразования текста в речь, которая может генерировать человеческие голоса из текста и нескольких секунд выборки речи. OpenAI заявила, что объединилась с известными актерами озвучивания, чтобы создать пять разных голосов, используя свою систему распознавания речи Whisper с открытым исходным кодом, используемую для расшифровки устных высказываний в текст.
Spotify также был объявлен партнером по запуску: гигант потоковой передачи музыки представил довольно интересную новую функцию для подкастеров, которая позволяет им сэмплировать свой голос и переводить свои шоу с английского на испанский, французский или немецкий, сохраняя при этом свой собственный оригинальный голос.
Тем не менее, похоже, что OpenAI старается действовать осторожно, поскольку она не делает эту технологию доступной для всех — компания работает с небольшим кругом избранных подкастеров.
«Новая голосовая технология, способная создавать реалистичные синтетические голоса всего за несколько секунд реальной речи, открывает двери для многих творческих и ориентированных на доступность приложений», — написала компания в своем блоге. «Однако эти возможности также представляют новые риски, такие как возможность злоумышленников выдать себя за общественных деятелей».
Новые функции начнут распространяться среди платных подписчиков Plus и Enterprise в ближайшие две недели. Чтобы активировать голосовые функции, пользователям необходимо зайти в меню «Настройки» в приложении, затем перейти в «Новые функции» и подписаться на голосовые разговоры. Затем им нужно нажать кнопку наушников в правом верхнем углу и выбрать нужный голос.
Первоначально голосовая связь будет ограничена приложениями ChatGPT для Android и iOS в рамках добровольной бета-версии, а поиск изображений по умолчанию будет доступен на всех платформах.
Примечательно, что объявление OpenAI было сделано одновременно с анонсом ИИ Anthropic от Amazon. Крупнейшая в мире платформа электронной коммерции инвестирует до 4 миллиардов в конкурента OpenAI. Этот шаг является частью более масштабной битвы в сфере систем генеративного искусственного интеллекта между мировыми технологическими гигантами, в которую также входит Google, пытающийся догнать соперников с помощью своего чат-бота Bard.
0 комментариев