Qwen-VLA:迈向通用具身智能的统一动作框架

2026年5月30日

13

608

Qwen-VLA:迈向通用具身智能的统一动作框架

在现有具身智能研究中,操作、导航、轨迹预测这些本应协同工作的能力,却被拆分成独立的模型,各自为战。这种碎片化的架构导致机器人换个物体、环境、甚至换一个机械臂就会失效。这让我们不禁思考:既然大语言模型能用一个大脑统一处理翻译、写作、问答等千百种文本任务,那机器人的“看、动、走”是不是也能装进同一个大脑?

统一动作轨迹预测框架

基于这一思路,研究团队提出了Qwen-VLA——一个基于大模型的通用具身智能统一动作框架。该模型以Qwen3.5-4B为底座,搭配基于DiT的动作解码器,通过三大核心技术路径构建了通用的视觉-语言-动作模型:统一动作轨迹预测框架、本体感知提示条件化、文本到动作DiT预训练(T2A)。

本体感知提示条件化

传统方案中,操作模型、导航模型和轨迹预测模型针对单一任务设计,碎片化的能力限制了跨任务迁移、跨环境适应和跨本体部署。但研究团队观察到一个关键事实:尽管这些任务表面上差异巨大,它们在计算结构上是同构的——都是“观察场景 + 理解指令 → 预测未来动作序列”。 Qwen-VLA将视觉语言主干网络(负责感知和推理功能)与DiT动作解码器相结合,不同任务数据可以在同一个训练过程中共同提供监督,模型从中习得的视觉定位和空间推理能力也因此可以跨任务迁移。

操作、导航和轨迹预测确实可以被视为同一个条件动作预测问题的不同实例化,而跨本体泛化可以通过将硬件差异编码为自然语言来优雅地实现。

“技术洞察”

四阶段训练策略

真实世界中的机器人硬件差异巨大:自由度数量、控制频率、运动学约束、接口协议各不相同。传统方案通常为每种机器人本体定制独立的模型分支或输出头。 Qwen-VLA选择了一条更轻量的路径:将硬件差异转化为语言理解问题,用一段结构化文本提示作为唯一的平台特定接口。通过在每个训练样本输入前端拼接描述当前机器人的文本提示,将机器人型号、机械臂数量、控制频率和预测时域等关键信息全部编码为自然语言,交由VLM骨干网络处理。 这一机制使得同一个动作解码器可以在训练时同时接受来自十余种机器人平台的数据,在推理时只需替换提示中的平台描述即可切换控制约定。目前该框架已支持11种机器人平台类型的统一控制。

实验结果与性能验证

Qwen-VLA采用渐进式的四阶段训练策略,确保VLM和DiT能够高效协同: 第一阶段:文本到动作预训练(T2A)。冻结VLM,纯文本训练DiT。这一步让DiT先学会“动作是什么”——理解不同指令对应什么样的动作模式,学会根据机器人类型调整控制方式。由于省去了图像编码,T2A每步的计算代价约为多模态训练的1/10。 第二阶段:持续预训练(CPT)。解锁全部参数,在大规模异构数据混合上联合训练。这一阶段专注于将动作落地到视觉观测,让骨干网络适应具身感知。 第三阶段:监督微调(SFT)。分两条并行分支——在多种仿真环境采集的异构任务上联合微调,以及针对真机遥操作数据微调,验证预训练表征向真实场景的迁移能力。 第四阶段:强化学习(RL)。在SimplerEnv中用稀疏二值成功奖励做强化学习,直接优化闭环任务成功率。

如有侵权,请联系删除。

Related Articles

联系我们 获取方案
小墨 AI