2025年11月14日

634

北京人形开源最新VLM模型，推进具身智能再迈关键一步！

2025年11月，北京人形机器人创新中心发布并开源Pelican-VL 1.0系列模型，覆盖从7B到72B参数规模，声称在多项多模态任务上性能优于同类模型约16%。此次发布被视为具身智能领域的一次重要进展，标志着开源社区与产业界在多模态感知与推理方向的协同进入新阶段。

Pelican-VL 亮点解读

Pelican-VL系列通过大尺度参数配置和面向具身场景的训练数据，使模型在视觉理解与语言推理结合的任务上表现出色。官方指出其在跨模态推理、少样本场景理解与复杂场景自适应能力上均有明显提升，使其成为当前开源体系中规模最大、能力最全面的具身智能视觉语言模型之一。

技术架构与多模态融合

在技术实现上，Pelican-VL采用先进的多模态融合架构，优化视觉编码与语言模型的接口，并在推理策略上加强场景感知与动作建议的协同。该架构提升了跨领域信息的整合能力，增强模型在复杂环境下的鲁棒性和推理深度，为机器人与智能体在实体世界的决策提供了更可靠的数据支撑。

Pelican-VL是全球最大规模开源具身智能VLM，支持多模态任务并提升跨领域推理和场景适应能力。

“小墨”

应用场景与落地前景

Pelican-VL针对机器人控制、工业自动化检测、医疗影像辅助判读等多类场景进行了适配与验证。开源后，行业内可基于该模型进行定制化开发，加快从算法验证到产品化的转化，推动具身智能在生产线、服务机器人与智慧医疗等领域的实际部署。

挑战与未来方向

尽管性能提升明显，但在长期稳定性、安全性、跨域迁移成本以及大规模实时推理效率方面仍面临挑战。未来工作需要在模型压缩、私有化部署、在线学习与多模态传感器融合上进一步优化，以实现更广泛的产业落地与生态共建。

如有侵权，请联系删除。

具身智能 Pelican-VL 多模态视觉语言模型开源模型机器人工业自动化医疗应用跨领域推理模型融合积墨AI AI智能体 AI智能体平台私有化AI智能体平台企业级AI智能体

Share This Post

体验企业级AI服务

联系产品经理，扫描下方企业微信二维码

北京人形开源最新VLM模型，推进具身智能再迈关键一步！

Pelican-VL 亮点解读

技术架构与多模态融合

应用场景与落地前景

挑战与未来方向

体验企业级AI服务

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

腾迈医药获2200万美元A轮追加融资，加速AI驱动药物创新