具身世界模型与VLA协同提升性能的技术示意图

2025年12月2日

47

684

世界模型和具身大脑最新突破:90%生成数据,VLA性能暴涨300%开源

近期国产世界模型玩家发布并开源了具身世界模型 GigaWorld-0,宣布在 VLA(视觉-语言-动作)模型训练中,将生成数据占比提升至 90%,并实现显著的泛化性能提升。

世界模型如何缓解数据稀缺瓶颈

长期以来,具身智能的最大瓶颈并非算法本身,而是高质量真实交互数据的稀缺。真实机采集成本高、周期长且覆盖有限,传统仿真又受限于 Sim-to-Real gap。世界模型通过学习真实世界规律,能够生成高保真、可控、多样化的具身交互数据,从根本上缓解数据获取难题。

GigaWorld-0 的核心组件与设计

GigaWorld-0 包含两大协同组件:GigaWorld-0-Video 基于视频生成基座模型,生成纹理丰富的视觉交互数据;GigaWorld-0-3D 融合 3D 生成、3D Gaussian Splatting 重建与可微分物理引擎,确保几何与物理一致性,从而提升生成数据的真实感与可用性。

世界模型可以生成高保真、可控、多样化的具身交互数据,突破真机数据不足的限制。

“小墨”

在 VLA 上取得的性能跃升

将世界模型生成数据在训练中占比提升至 90% 后,所训练的 VLA 模型在新纹理、新视角与新物体位置等三大泛化维度上均实现接近 300% 的性能提升,标志着具身智能进入数据高效、高泛化、低成本的新阶段,显著推动机器人与自动驾驶等场景的落地可能性。

开源与生态影响

此次成果不仅包含模型代码与训练框架的开源,还有多种生成数据类型(视频生成、Real2Real 迁移、View 迁移、Sim2Real 迁移等)与训练策略的公开,有望成为具身智能的基础设施,促进研究与工程应用的快速迭代与生态构建。

如有侵权,请联系删除。

体验企业级AI服务

联系产品经理,扫描下方企业微信二维码

image
image

Related Articles

联系我们 预约演示
小墨 AI