MiMo-Embodied 在室内与道路场景中的联合感知与控制示意

2025年11月26日

67

842

小米打通智驾和具身大模型,然后开源了

近日,小米团队公开了 MiMo-Embodied,一款号称全球首个将自动驾驶与具身智能打通的基座模型。该项目围绕视觉与动作一体化能力展开,目标是让模型不仅“看懂”场景,还能在物理世界中有效执行复杂任务。

MiMo-Embodied 的总体架构与目标

MiMo-Embodied 基于 MiMo‑VL 结构设计,整合了自动驾驶与具身任务相关的大规模高质量数据集。通过统一编码视觉-语言-动作信息,模型能够在室内机器人操作与户外驾驶场景间迁移学习,实现跨领域的通用感知与控制能力。

训练策略:思维链与强化学习的渐进式融合

团队采用链式思考(CoT)结合强化学习(RL)的渐进式训练策略,先用带有推理链条的监督信号提升模型的分步推理能力,再用强化学习微调模型在真实或仿真环境中的长期决策表现,这种策略显著提升了模型在动态环境中的鲁棒性与可控性。

MiMo-Embodied 支持室内操作与户外驾驶任务的统一建模,提升了模型在动态环境下与物理世界有效交互的能力。

“小墨”

跨场景数据与评测指标

项目整合了多源数据,包括室内具身交互数据、道路感知与决策数据集,以及用于评估闭环执行效果的仿真与真实场景测评集;通过统一任务设计与指标体系,展示了在多个具身与驾驶任务上接近或达到 SOTA 的表现。

工程化与开源影响

小米将 MiMo-Embodied 开源,使研究者和工程团队能够在统一基座上进行定制化训练与评估,这有助于加速具身智能与自动驾驶领域的协同发展,并推动更多跨模态、跨物理交互的落地应用与生态建设。此开源举措可能成为推动行业标准化与开源协作的重要节点。

如有侵权,请联系删除。

体验企业级AI服务

联系产品经理,扫描下方企业微信二维码

image
image

Related Articles

联系我们 预约演示
小墨 AI