Xiaomi представляет MiMo-V2.5-TTS и ASR — полноценный голосовой конвейер для эры агентов

В марте Xiaomi представила модель синтеза речи MiMo-V2-TTS, которая позволяла детально управлять тоном, эмоциями и стилем речи. Тогда компания заявляла, что модель способна работать как в естественных диалогах, так и при пении, поддерживая несколько китайских диалектов.

Теперь Xiaomi расширяет эту разработку, создав систему, которая охватывает как воспроизведение, так и восприятие речи. Компания анонсировала серию MiMo-V2.5-TTS вместе с MiMo-V2.5-ASR — это «полносвязный» набор голосовых моделей для так называемой эры агентов.

Модели вывода (TTS)

На стороне синтеза серия MiMo-V2.5-TTS включает три разные модели, все они доступны через платформу MiMo Open Platform ограниченное время бесплатно. Каждая модель использует общую основу для стилевых инструкций, управления аудиотегами и понимания текста, но ориентирована на разные сценарии.

Базовая модель MiMo-V2.5-TTS поставляется с набором готовых голосов и позволяет тонко настраивать скорость речи, тон и эмоции.

MiMo-V2.5-TTS-VoiceDesign даёт возможность генерировать совершенно новые тембры голоса на основе всего одного короткого предложения.

Третий вариант, MiMo-V2.5-TTS-VoiceClone, предназначен для воспроизведения конкретного голоса на основе небольшого количества образцов, сохраняя при этом согласованность в разных стилях и инструкциях.

Большой акцент Xiaomi делает на том, как модель интерпретирует инструкции. Вместо структурированных параметров пользователи могут описать желаемое звучание голоса обычным языком — почти как давая указания актёру озвучки. Для более сложных задач (например, игровые персонажи или аудиодрамы) система также поддерживает многоуровневый ввод в формате сценария, где можно независимо настраивать характеристики персонажа, сцены и диалоги, не нарушая целостность.

Модели также поддерживают встроенные аудиотеги, позволяющие управлять эмоциями или подачей в определённых точках предложения. Эти теги можно смешивать в одном тексте, и, по заявлению разработчиков, они работают как с китайским, так и с английским языком.

Модель ввода (ASR)

На стороне ввода Xiaomi выпускает MiMo-V2.5-ASR как модель с открытым исходным кодом. Как утверждается, система распознавания речи спроектирована для работы в непредсказуемых реальных условиях, включая двуязычные разговоры, региональные диалекты и шумную обстановку.

Модель ASR поддерживает несколько китайских диалектов: у, кантонский, миньнань и сычуаньский, а также хорошо справляется со сложными сценариями на английском. Она может переключаться между китайским и английским без необходимости заранее указывать язык, и способна распознавать текст песен даже при смешанных вокале и музыке.

Модель также работает в ситуациях с несколькими говорящими — например, на совещаниях — и может транскрибировать перекрывающиеся диалоги с определённым разделением. Xiaomi утверждает, что точность сохраняется даже в условиях сильного шума или при захвате звука с расстояния.

Ещё одна особенность — обработка пунктуации и структуры. Вместо выдачи сырого текста, требующего доработки, MiMo-V2.5-ASR изначально расставляет знаки препинания на основе фонетики и контекста. В результате расшифровки можно использовать с минимальной постобработкой.

По производительности Xiaomi заявляет, что модель достигает передовых или близких к передовым результатов в нескольких бенчмарках, включая двуязычное распознавание, работу с диалектами и смешанные языковые сценарии.

Модели TTS доступны через платформу Xiaomi, их также можно протестировать в MiMo Studio, а модель ASR выложена с открытыми весами и кодом для прямого использования или доработки.

(Источники: 1 | 2 | 3)

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ в комментариях

Вы можете задать вопрос нашему ИИ-помощнику прямо в комментариях к этой статье. Он постарается быстро ответить или уточнить информацию.

⚠️ ИИ может ошибаться — проверяйте важную информацию.


0 комментариев

Оставить комментарий


Все комментарии - Технологии