Xiaomi представила свою первую робототехническую модель с искусственным интеллектом
Компания Xiaomi, известная своими смартфонами и умной техникой для дома, выходит на новый уровень, представив свою первую крупномасштабную модель для робототехники — Xiaomi-Robotics-0. Это открытая модель «зрение-язык-действие» (VLA) с 4,7 миллиардами параметров, предназначенная для объединения визуального восприятия, понимания языка и выполнения действий в реальном времени.
Модель построена на архитектуре Mixture-of-Transformers (MoT) и состоит из двух ключевых компонентов. Первый — это визуально-языковая модель (VLM), которая выступает в роли «мозга», интерпретируя инструкции и понимая пространственные отношения. Второй — «Эксперт по действиям» на основе Diffusion Transformer (DiT), который генерирует плавные последовательности движений.
Для обучения модели Xiaomi использовала поэтапный процесс, чтобы избежать типичной проблемы, когда VLA-модели теряют способность к рассуждению, обучаясь физическим действиям. Также компания решила проблему задержки вывода данных, внедрив асинхронный вывод, что позволяет роботу двигаться плавно, даже если модели нужно дополнительное время на «размышления».
По заявлениям Xiaomi, в тестах Robotics-0 показала лучшие результаты в симуляциях LIBERO, CALVIN и SimplerEnv, обойдя около 30 других моделей. В реальных экспериментах на платформе с двумя манипуляторами робот успешно справлялся со сложными задачами, такими как складывание полотенец и разборка конструкций, демонстрируя хорошую координацию.
ИИ: Выход Xiaomi в сферу робототехнического ИИ — логичный шаг для компании, стремящейся к созданию экосистемы «умных» устройств. Успех этой модели в симуляциях обнадёживает, но ключевым испытанием станет её адаптация к массовым коммерческим продуктам.









0 комментариев