Xiaomi открыла исходный код модели OmniVoice для клонирования голоса с поддержкой сотен языков
Компания Xiaomi объявила, что её команда Kaldi нового поколения из лаборатории AI Lab открыла исходный код новой модели синтеза речи (TTS) под названием OmniVoice. По заявлению компании, модель предназначена для высококачественного синтеза речи на сотнях языков, а также поддерживает клонирование голоса и настраиваемую генерацию речи.
Анонс был опубликован через официальный аккаунт Xiaomi в WeChat, где компания заявила, что OmniVoice демонстрирует высокую производительность как в китайском, так и в английском языках, конкурируя с существующими коммерческими системами, а в некоторых многоязычных задачах превосходит их.
Одной из главных особенностей OmniVoice является поддержка языков с ограниченными ресурсами. Xiaomi утверждает, что модель может генерировать речь на «практически любом мыслимом языке», включая языки с очень ограниченным количеством обучающих данных в интернете. Компания описывает OmniVoice как первую в отрасли TTS-модель для клонирования голоса, охватывающую сотни языков.
В многоязычных тестах OmniVoice превзошла несколько коммерческих систем в 24 языках по показателям сходства речи и разборчивости, даже при обучении только на наборах данных с открытым исходным кодом. Компания также утверждает, что в тестах на 102 языках разборчивость речи OmniVoice была близка к человеческой речи, а в некоторых случаях превосходила её.
Модель также разработана для работы с ограниченным объёмом обучающих данных. По словам бренда, даже языки с менее чем 10 часами обучающего материала могут достигать высокого качества синтеза речи, что может помочь расширить поддержку речевых технологий для малых региональных и нишевых языков.
Xiaomi также сообщает, что OmniVoice использует гораздо более простую архитектуру по сравнению со многими современными системами синтеза речи. Вместо использования нескольких различных модулей и этапов прогнозирования модель применяет единую двунаправленную сеть Transformer для прямого преобразования текста в речь. Это устраняет необходимость в отдельном моделировании текста, сложных гибридных структурах и многоуровневых системах прогнозирования токенов, которые обычно встречаются в современных TTS-моделях.
Упрощённая конструкция также повышает скорость: утверждается, что OmniVoice завершает обучение на 100 000 часах данных за один день. Во время вывода модель может работать со скоростью до 40 раз быстрее реального времени с использованием PyTorch, что может упростить её развёртывание в потребительских приложениях и сервисах.
По словам Xiaomi, два основных конструктивных решения помогли улучшить производительность модели. Первое — это «стратегия полного случайного маскирования кодовой книги», которая, как сообщается, повышает эффективность обучения и общую производительность модели.
Второе — использование большой языковой модели во время предварительного обучения. Xiaomi утверждает, что это первый случай, когда большая языковая модель была эффективно интегрирована в неавторегрессионную TTS-модель для улучшения точности произношения и разборчивости речи.
Наряду с многоязычной генерацией речи, OmniVoice включает несколько практических функций. Пользователи могут создавать собственные голоса, просто описывая такие характеристики, как возраст, пол, высота тона, акцент, диалект или стиль речи. Модель также может генерировать шёпот и другие специальные стили речи без необходимости в эталонном аудиообразце.
Ещё одна функция ориентирована на работу с зашумлёнными аудиосредами. Xiaomi утверждает, что OmniVoice может автоматически удалять фоновый шум из эталонных записей и извлекать более чёткие голосовые характеристики, что позволяет добиться более качественного клонирования голоса даже при записи исходного аудио в неидеальных условиях.
Модель также поддерживает выразительный синтез речи с помощью управления интонацией, включая эффекты смеха и вздохов, что делает сгенерированные голоса более естественными и разговорными.
Для точности произношения OmniVoice включает инструменты, позволяющие пользователям вручную исправлять сложные произношения, включая многозначные китайские иероглифы и английские имена собственные. Xiaomi утверждает, что это может повысить надёжность синтезированной речи в реальных приложениях.
(Github | Демо | Huggingface)







0 комментариев