Qwen-VLA：迈向通用具身智能的统一动作框架

在现有具身智能研究中，操作、导航、轨迹预测这些本应协同工作的能力，却被拆分成独立的模型，各自为战。这种碎片化的架构导致机器人换个物体、环境、甚至换一个机械臂就会失效。这让我们不禁思考：既然大语言模型能用一个大脑统一处理翻译、写作、问答等千百种文本任务，那机器人的“看、动、走”是不是也能装进同一个大脑？

统一动作轨迹预测框架

基于这一思路，研究团队提出了Qwen-VLA——一个基于大模型的通用具身智能统一动作框架。该模型以Qwen3.5-4B为底座，搭配基于DiT的动作解码器，通过三大核心技术路径构建了通用的视觉-语言-动作模型：统一动作轨迹预测框架、本体感知提示条件化、文本到动作DiT预训练（T2A）。

本体感知提示条件化

传统方案中，操作模型、导航模型和轨迹预测模型针对单一任务设计，碎片化的能力限制了跨任务迁移、跨环境适应和跨本体部署。但研究团队观察到一个关键事实：尽管这些任务表面上差异巨大，它们在计算结构上是同构的——都是“观察场景 + 理解指令 → 预测未来动作序列”。 Qwen-VLA将视觉语言主干网络（负责感知和推理功能）与DiT动作解码器相结合，不同任务数据可以在同一个训练过程中共同提供监督，模型从中习得的视觉定位和空间推理能力也因此可以跨任务迁移。

操作、导航和轨迹预测确实可以被视为同一个条件动作预测问题的不同实例化，而跨本体泛化可以通过将硬件差异编码为自然语言来优雅地实现。

“技术洞察”

四阶段训练策略

真实世界中的机器人硬件差异巨大：自由度数量、控制频率、运动学约束、接口协议各不相同。传统方案通常为每种机器人本体定制独立的模型分支或输出头。 Qwen-VLA选择了一条更轻量的路径：将硬件差异转化为语言理解问题，用一段结构化文本提示作为唯一的平台特定接口。通过在每个训练样本输入前端拼接描述当前机器人的文本提示，将机器人型号、机械臂数量、控制频率和预测时域等关键信息全部编码为自然语言，交由VLM骨干网络处理。这一机制使得同一个动作解码器可以在训练时同时接受来自十余种机器人平台的数据，在推理时只需替换提示中的平台描述即可切换控制约定。目前该框架已支持11种机器人平台类型的统一控制。

实验结果与性能验证

Qwen-VLA采用渐进式的四阶段训练策略，确保VLM和DiT能够高效协同：第一阶段：文本到动作预训练（T2A）。冻结VLM，纯文本训练DiT。这一步让DiT先学会“动作是什么”——理解不同指令对应什么样的动作模式，学会根据机器人类型调整控制方式。由于省去了图像编码，T2A每步的计算代价约为多模态训练的1/10。第二阶段：持续预训练（CPT）。解锁全部参数，在大规模异构数据混合上联合训练。这一阶段专注于将动作落地到视觉观测，让骨干网络适应具身感知。第三阶段：监督微调（SFT）。分两条并行分支——在多种仿真环境采集的异构任务上联合微调，以及针对真机遥操作数据微调，验证预训练表征向真实场景的迁移能力。第四阶段：强化学习（RL）。在SimplerEnv中用稀疏二值成功奖励做强化学习，直接优化闭环任务成功率。

如有侵权，请联系删除。

具身智能视觉语言动作模型机器人控制多模态AI 积墨AI AI智能体 AI智能体平台私有化AI智能体平台企业级AI智能体

Share This Post

Qwen-VLA：迈向通用具身智能的统一动作框架

统一动作轨迹预测框架

本体感知提示条件化

四阶段训练策略

实验结果与性能验证

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

从思考到行动：智能体时代的可信 AI

独家赛道突围！华清未央领跑机器语言大模型赛道；颠覆3D内容行业！这家AI新贵完成巨额融资，国资+产业龙头全线押注

2026中国AI智能体领航者产业图谱发布

因思科技携AI智能体赋能数智运维，亮相第十七届石油化工设备维护检修技术交流会

首发全域AI智能体，思格新能源在下一盘什么大棋？

黄仁勋与高通同日宣布2026为'智能体AI元年'！AI正从'聊天'走向'执行任务'，算力战场全面切换

英伟达GTC 2026：智能体AI时代，全栈战略正式落地

黄仁勋：'有用的AI'已经到来

阿里云亮相BEYOND Expo 2026：以全栈AI技术，激发Agentic时代的亚洲创新力

北京人工智能项目融资路演推介会·投资机构邀请函

深圳市物联网产业协会与术源万算签约，共筑AI智能体物联新生态

刚刚！AI生成3D大模型，VAST完成近2亿美元A+轮融资，推出世界模型Project Eden

SpaceX IPO 目标估值降至至少 1.8 万亿美元/MiniMax 已启动中国境内 IPO 准备

OpenClaw.NET：AI工作流程机器人的网关架构深度解析

聚焦'专业+AI应用'，2026年人工智能赋能大学生就业能力提升师资培训在中央美院举办

全球顶尖律所 Kirkland & Ellis 投资 5 亿美元，自研法律 AI 平台；知名精品所推出专有资产管理 AI 平台

【报告】OpenClaw专题：OpenClaw引爆'龙虾'狂潮！万字拆解《重构与崛起》报告：Agent如何重构中国AI产业？

【AI】Agent落地、千亿募资与算力军备：AI正在经历一场'去泡沫化'战争