By 小墨
2026年5月30日
13
608
Qwen-VLA:迈向通用具身智能的统一动作框架
在现有具身智能研究中,操作、导航、轨迹预测这些本应协同工作的能力,却被拆分成独立的模型,各自为战。这种碎片化的架构导致机器人换个物体、环境、甚至换一个机械臂就会失效。这让我们不禁思考:既然大语言模型能用一个大脑统一处理翻译、写作、问答等千百种文本任务,那机器人的“看、动、走”是不是也能装进同一个大脑?
统一动作轨迹预测框架
基于这一思路,研究团队提出了Qwen-VLA——一个基于大模型的通用具身智能统一动作框架。该模型以Qwen3.5-4B为底座,搭配基于DiT的动作解码器,通过三大核心技术路径构建了通用的视觉-语言-动作模型:统一动作轨迹预测框架、本体感知提示条件化、文本到动作DiT预训练(T2A)。
本体感知提示条件化
传统方案中,操作模型、导航模型和轨迹预测模型针对单一任务设计,碎片化的能力限制了跨任务迁移、跨环境适应和跨本体部署。但研究团队观察到一个关键事实:尽管这些任务表面上差异巨大,它们在计算结构上是同构的——都是“观察场景 + 理解指令 → 预测未来动作序列”。 Qwen-VLA将视觉语言主干网络(负责感知和推理功能)与DiT动作解码器相结合,不同任务数据可以在同一个训练过程中共同提供监督,模型从中习得的视觉定位和空间推理能力也因此可以跨任务迁移。
操作、导航和轨迹预测确实可以被视为同一个条件动作预测问题的不同实例化,而跨本体泛化可以通过将硬件差异编码为自然语言来优雅地实现。
“技术洞察”四阶段训练策略
真实世界中的机器人硬件差异巨大:自由度数量、控制频率、运动学约束、接口协议各不相同。传统方案通常为每种机器人本体定制独立的模型分支或输出头。 Qwen-VLA选择了一条更轻量的路径:将硬件差异转化为语言理解问题,用一段结构化文本提示作为唯一的平台特定接口。通过在每个训练样本输入前端拼接描述当前机器人的文本提示,将机器人型号、机械臂数量、控制频率和预测时域等关键信息全部编码为自然语言,交由VLM骨干网络处理。 这一机制使得同一个动作解码器可以在训练时同时接受来自十余种机器人平台的数据,在推理时只需替换提示中的平台描述即可切换控制约定。目前该框架已支持11种机器人平台类型的统一控制。
实验结果与性能验证
Qwen-VLA采用渐进式的四阶段训练策略,确保VLM和DiT能够高效协同: 第一阶段:文本到动作预训练(T2A)。冻结VLM,纯文本训练DiT。这一步让DiT先学会“动作是什么”——理解不同指令对应什么样的动作模式,学会根据机器人类型调整控制方式。由于省去了图像编码,T2A每步的计算代价约为多模态训练的1/10。 第二阶段:持续预训练(CPT)。解锁全部参数,在大规模异构数据混合上联合训练。这一阶段专注于将动作落地到视觉观测,让骨干网络适应具身感知。 第三阶段:监督微调(SFT)。分两条并行分支——在多种仿真环境采集的异构任务上联合微调,以及针对真机遥操作数据微调,验证预训练表征向真实场景的迁移能力。 第四阶段:强化学习(RL)。在SimplerEnv中用稀疏二值成功奖励做强化学习,直接优化闭环任务成功率。
如有侵权,请联系删除。
Related Articles
-
Tue Jun 02 2026从思考到行动:智能体时代的可信 AI
清华大学发起的专题报告深入探讨智能体时代的可信AI问题,研究者从模型能力演进路径出发,审视在模型具备推理与行动能力后如何保证其行为的可靠性与可验证性。
-
Tue Jun 02 2026独家赛道突围!华清未央领跑机器语言大模型赛道;颠覆3D内容行业!这家AI新贵完成巨额融资,国资+产业龙头全线押注
近日,华清未央宣布完成超亿元Pre-A轮融资,由多家资本机构及产业方参与,旨在加速其机器语言大模型的研发与规模化应用。公司聚焦程序理解、软件资产治理与AI安全等关键场景,希望以模型能力提升软件开发与运
-
Tue Jun 02 20262026中国AI智能体领航者产业图谱发布
在北京网络安全大会(BCS 2026)现场,组织方发布了《2026中国AI智能体领航者产业图谱》,该图谱覆盖20多个行业、100余家入选企业,旨在通过权威评审与公开展示,呈现中国智能体技术落地与产业创
-
Mon Jun 01 2026因思科技携AI智能体赋能数智运维,亮相第十七届石油化工设备维护检修技术交流会
沈阳因思科技在行业交流会上发布了因思云AI智能体系列,展示了动静设备一体化的数智运维解决方案与多种智能体产品。
-
Mon Jun 01 2026首发全域AI智能体,思格新能源在下一盘什么大棋?
思格新能源在其全球战略发布会上推出了行业首个全域AI智能体SigenAgent,宣称将AI能力覆盖光伏、储能与充电桩的全流程管理。
-
Mon Jun 01 2026黄仁勋与高通同日宣布2026为'智能体AI元年'!AI正从'聊天'走向'执行任务',算力战场全面切换
6月1日,两大芯片巨头英伟达与高通在不同场合同时提出2026为‘智能体AI元年’,共同描绘了智能体在云、端、车、机等多场景快速落地的蓝图。
-
Mon Jun 01 2026英伟达GTC 2026:智能体AI时代,全栈战略正式落地
GTC 2026上,英伟达正式展示其从GPU公司向AI基础设施公司的转型路线,强调智能体将成为未来计算的核心负载。
-
Mon Jun 01 2026黄仁勋:'有用的AI'已经到来
在COMPUTEX 2026大会上,英伟达CEO黄仁勋提出‘有用的AI’的命题,宣称智能体AI时代全面到来,并展示了公司在芯片与系统层面的新进展。
-
Mon Jun 01 2026阿里云亮相BEYOND Expo 2026:以全栈AI技术,激发Agentic时代的亚洲创新力
在澳门举办的BEYOND Expo 2026上,阿里云展示了其全栈AI技术与智能体产品,着重强调为企业与开发者提供从模型到产品化的端到端能力。
-
Mon Jun 01 2026北京人工智能项目融资路演推介会·投资机构邀请函
北京市委网信办联合经开区管委会将于2026年6月11日举办人工智能项目融资路演推介会,活动旨在为AI创业项目与投资机构搭建对接平台。
-
Mon Jun 01 2026深圳市物联网产业协会与术源万算签约,共筑AI智能体物联新生态
2026年6月1日,深圳市物联网产业协会与术源万算签署合作协议,双方将围绕AI智能体在物联网领域的应用展开深度协作,推动技术和产业层面的融合落地。
-
Mon Jun 01 2026刚刚!AI生成3D大模型,VAST完成近2亿美元A+轮融资,推出世界模型Project Eden
AI 3D生成公司VAST宣布完成近2亿美元A+轮融资,领投方包括渶策资本与国寿长三角科创基金,同时发布其世界模型Project Eden,标志着生成AI与具身智能研究的新进展。
-
Sun May 31 2026SpaceX IPO 目标估值降至至少 1.8 万亿美元/MiniMax 已启动中国境内 IPO 准备
近期资本市场对太空与AI相关公司的定价出现调整,SpaceX的IPO目标估值从此前的高位回落至约1.8万亿美元,这反映了市场对长期营收确定性的重新评估。
-
Sun May 31 2026OpenClaw.NET:AI工作流程机器人的网关架构深度解析
OpenClaw.NET作为自托管的AI Agent网关与运行时,采用模块化分层架构,旨在为生产环境提供可审计、可扩展且高性能的Agent网关解决方案,支持NativeAOT编译以优化部署体积与性能。
-
Sun May 31 2026聚焦'专业+AI应用',2026年人工智能赋能大学生就业能力提升师资培训在中央美院举办
中央美院举办的师资培训旨在提升高校教师对AIGC与AI应用的理解与教学能力,帮助他们将AI工具融入艺术与就业指导课程中。
-
Sun May 31 2026全球顶尖律所 Kirkland & Ellis 投资 5 亿美元,自研法律 AI 平台;知名精品所推出专有资产管理 AI 平台
Kirkland & Ellis 宣布将在未来三到四年内总计投入5亿美元用于开发定制化的法律 AI 平台,2026 年将先行投入约1亿美元以支持早期研发与落地试点。这一举措反映出大型律所希望摆脱对多种
-
Sat May 30 2026【报告】OpenClaw专题:OpenClaw引爆'龙虾'狂潮!万字拆解《重构与崛起》报告:Agent如何重构中国AI产业?
易观发布的《重构与崛起》报告全面梳理了OpenClaw开源框架如何在短时间内吸引大量关注,并推动企业与开发者围绕Agent能力进行产品与服务创新。
-
Sat May 30 2026【AI】Agent落地、千亿募资与算力军备:AI正在经历一场'去泡沫化'战争
进入 2026 年,AI 行业开始从能力竞赛转向商业化与可持续盈利的考量。技术厂商、资本方与政策制定者在算力、资金与合规上展开新一轮角力,推动市场加速整合与优胜劣汰。
