Xiaomi открыла исходный код ключевого компонента своей экосистемы

4 августа 2025, 08:32 / Технологии → Новости / Технологии

Компания Xiaomi официально выпустила и открыла исходный код большой модели MiDashengLM-7B с функцией распознавания звука. Этот компонент является ключевым элементом стратегии компании по созданию «полноценной экосистемы людей, автомобилей и домов».

MiDashengLM обладает возможностью кросс-доменного анализа, объединяя понимание голоса, окружающих звуков и музыки. Модель не только распознаёт происходящее вокруг пользователя, но и анализирует скрытый смысл событий, улучшая общее понимание контекста.

Взаимодействие с пользователями происходит через естественный язык, что делает общение более человечным. Среди возможностей модели — обратная связь по произношению, создание индивидуальных планов обучения для пения или изучения языков, а также ответы на вопросы о звуках окружающей среды во время вождения.

MiDashengLM, созданная на основе аудиокодера Xiaomi Dasheng и декодера Qwen2.5-Omni-7B Thinker, обеспечивает универсальное обучение для распознавания речи, звуков и музыки. Все обучающие данные (1,1 млн часов) взяты из открытых источников и доступны по лицензии Apache License 2.0.

Ключевые преимущества модели:

Высокая точность: Установила новые рекорды (SOTA) в 22 тестах для мультимодальных моделей, превзойдя Whisper в задачах, не связанных с речью.
Эффективность: Время отклика (TTFT) в 4 раза быстрее аналогов, а пропускная способность — в 20 раз выше.
Инновационный подход: Использует семантическое картирование для анализа эмоций и пространственных характеристик звука.

Xiaomi открыла исходный код ключевого компонента своей экосистемы

Ключевые преимущества модели:

0 комментариев

Оставить комментарий

Все комментарии - Технологии