Xiaomi открыла исходный код ключевого компонента своей экосистемы

/ ТехнологииНовости / Технологии

Компания Xiaomi официально выпустила и открыла исходный код большой модели MiDashengLM-7B с функцией распознавания звука. Этот компонент является ключевым элементом стратегии компании по созданию «полноценной экосистемы людей, автомобилей и домов».

MiDashengLM обладает возможностью кросс-доменного анализа, объединяя понимание голоса, окружающих звуков и музыки. Модель не только распознаёт происходящее вокруг пользователя, но и анализирует скрытый смысл событий, улучшая общее понимание контекста.

Взаимодействие с пользователями происходит через естественный язык, что делает общение более человечным. Среди возможностей модели — обратная связь по произношению, создание индивидуальных планов обучения для пения или изучения языков, а также ответы на вопросы о звуках окружающей среды во время вождения.

MiDashengLM, созданная на основе аудиокодера Xiaomi Dasheng и декодера Qwen2.5-Omni-7B Thinker, обеспечивает универсальное обучение для распознавания речи, звуков и музыки. Все обучающие данные (1,1 млн часов) взяты из открытых источников и доступны по лицензии Apache License 2.0.

Ключевые преимущества модели:

  • Высокая точность: Установила новые рекорды (SOTA) в 22 тестах для мультимодальных моделей, превзойдя Whisper в задачах, не связанных с речью.
  • Эффективность: Время отклика (TTFT) в 4 раза быстрее аналогов, а пропускная способность — в 20 раз выше.
  • Инновационный подход: Использует семантическое картирование для анализа эмоций и пространственных характеристик звука.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ в комментариях

Вы можете задать вопрос нашему ИИ-помощнику прямо в комментариях к этой статье. Он постарается быстро ответить или уточнить информацию.

⚠️ ИИ может ошибаться — проверяйте важную информацию.


0 комментариев

Оставить комментарий


Все комментарии - Технологии