OpenAI запускает новые функции голосового интеллекта в своём API
Компания OpenAI объявила, что в её API теперь доступен ряд новых функций голосового интеллекта, предназначенных для помощи разработчикам в создании приложений, способных разговаривать, расшифровывать и переводить беседы с пользователями.
Новая модель GPT‑Realtime‑2 представляет собой ещё одну голосовую модель, созданную для реалистичной голосовой симуляции, способной вести диалог с пользователями. Однако, в отличие от своего предшественника (GPT-Realtime-1.5), эта модель построена на рассуждениях уровня GPT‑5, которые, по словам OpenAI, предназначены для обработки более сложных запросов пользователей.
Компания также запускает GPT‑Realtime‑Translate, которая, как следует из названия, предназначена для предоставления услуг перевода в реальном времени, «не отставая» от собеседника. Функция поддерживает более 70 входных языков (то есть языков, которые она может понимать) и 13 выходных языков (языков, на которые она переводит для говорящего).
Наконец, компания также запустила новую возможность транскрипции — GPT-Realtime-Whisper, которая предоставляет пользователям возможность преобразования речи в текст в реальном времени по мере взаимодействия.
«Вместе модели, которые мы запускаем, переводят аудио в реальном времени от простого запроса-ответа к голосовым интерфейсам, которые могут действительно работать: слушать, рассуждать, переводить, расшифровывать и предпринимать действия по ходу разговора», — заявили в компании.
Кому будут полезны эти обновления? Очевидной целью являются компании, желающие расширить возможности обслуживания клиентов. Однако OpenAI также отмечает, что новые функции помогут в самых разных областях, включая образование, медиа, мероприятия и платформы для создателей контента.
Насколько бы полезными ни казались эти инструменты с точки зрения бизнеса, не исключено, что их могут использовать во вред. Компания заявила, что создала защитные механизмы, чтобы предотвратить злоупотребление новыми функциями для создания спама, мошенничества или других форм онлайн-злоупотреблений. В систему были встроены определённые триггеры, чтобы «разговоры могли быть остановлены, если они будут признаны нарушающими наши правила вредоносного контента», — сообщили в OpenAI.
Все новые голосовые модели включены в Realtime API от OpenAI. Модели Translate и Whisper тарифицируются поминутно, а GPT-Realtime-2 — по потреблению токенов.







0 комментариев