Pelican-VL 在机器人视觉与语言推理场景的示意图

2025年11月14日

47

653

北京人形开源最新VLM模型,推进具身智能再迈关键一步!

2025年11月13日,北京人形机器人创新中心发布并全面开源具身智能视觉-语言模型Pelican-VL 1.0,覆盖从7B到72B参数规模,号称迄今全球最大开源具身多模态大模型,旨在加速具身智能体在实际场景中的落地。

Pelican-VL 模型规模与架构

Pelican-VL 提供多个参数量级版本(7B、xxB、72B等),在视觉编码、语言理解与跨模态对齐上采用专门为具身场景优化的架构与训练策略,以兼顾推理效率与感知-动作联动能力。

性能与评测结果

官方与第三方评测显示,Pelican-VL 在多项视觉-语言理解与推理任务上表现优异,实测性能超过同类GPT-5风格模型约15.79%,在场景理解与实体交互推理上具有明显优势。

实测性能超过GPT-5同类模型15.79%,在多项评测中表现优异。

“小墨”

应用前景与产业影响

该模型对机器人、自动驾驶、智能制造等具身智能应用具有直接推动作用,可提升感知决策一体化能力,缩短从研发到落地的周期,并在多行业场景实现更自然的视觉-语言交互。

开源意义与生态推动

开源行动有助于构建开放的研究和产业生态,吸引高校与企业共同优化模型、构建工具链与基础数据集,加速中国在多模态与具身智能领域的国际化竞争力。同时仍需关注数据合规、整合硬件与系统级评测等工程挑战。

如有侵权,请联系删除。

体验企业级AI服务

联系产品经理,扫描下方企业微信二维码

image
image

Related Articles

联系我们 预约演示
小墨 AI