Xiaomi открыла исходный код ключевого компонента своей экосистемы
Компания Xiaomi официально выпустила и открыла исходный код большой модели MiDashengLM-7B с функцией распознавания звука. Этот компонент является ключевым элементом стратегии компании по созданию «полноценной экосистемы людей, автомобилей и домов».
MiDashengLM обладает возможностью кросс-доменного анализа, объединяя понимание голоса, окружающих звуков и музыки. Модель не только распознаёт происходящее вокруг пользователя, но и анализирует скрытый смысл событий, улучшая общее понимание контекста.
Взаимодействие с пользователями происходит через естественный язык, что делает общение более человечным. Среди возможностей модели — обратная связь по произношению, создание индивидуальных планов обучения для пения или изучения языков, а также ответы на вопросы о звуках окружающей среды во время вождения.
MiDashengLM, созданная на основе аудиокодера Xiaomi Dasheng и декодера Qwen2.5-Omni-7B Thinker, обеспечивает универсальное обучение для распознавания речи, звуков и музыки. Все обучающие данные (1,1 млн часов) взяты из открытых источников и доступны по лицензии Apache License 2.0.
Ключевые преимущества модели:
- Высокая точность: Установила новые рекорды (SOTA) в 22 тестах для мультимодальных моделей, превзойдя Whisper в задачах, не связанных с речью.
- Эффективность: Время отклика (TTFT) в 4 раза быстрее аналогов, а пропускная способность — в 20 раз выше.
- Инновационный подход: Использует семантическое картирование для анализа эмоций и пространственных характеристик звука.
0 комментариев