blog details

2024年12月5日

24

419

谷歌发布大型世界模型Genie 2,开启AI交互新纪元

近期,Google DeepMind发布的全新基础世界模型Genie 2引爆了AI领域的关注。这款世界模型具有高度通用性,能够根据输入的文本提示与提示图像生成可交互的3D虚拟世界,并且兼容人类用户与AI agent的操作需求。作为一个自回归潜在扩散模型,Genie 2可以快速生成动态场景,支持通过鼠标和键盘进行实时探索与互动。这种能力不仅推动了大型语言模型开发在具身智能上的实际应用,还为AI定制开发拓展了更广的可能。

Genie 2的设计独具创新性,基于大型视频数据集进行训练,并结合自动编码器与大型Transformer动力学模型实现高效帧生成。得益于与Langchain框架类似的因果掩码技术,Genie 2采用自回归方式逐帧采样,并通过CFG(无分类器指导)技术提高动作生成的可控性。例如,它能够生成高度逼真的光影效果、复杂的物理交互甚至动态角色动画,在这些方面展现出超越传统AI模型训练工具的实力。这一模型为业内开发者,尤其是杭州AI定制开发等团队带来了极高的商业价值。

设计创新性

与其上一代模型Genie 1相比,Genie 2在通用性上取得了显著提升。它不仅能够模拟风、水等自然现象,还可以基于单张输入图像创造出复杂的3D交互场景。例如,将Imagen 3生成的2D图像作为提示,Genie 2能够生成精确模拟龙、纸飞机以及降落伞飞行的视频,这为用户带来了更加多样化的虚拟场景体验。这一强大的可视化能力为教育行业AI解决方案和税务行业知识问答AI等领域的需求定制提供了有力支持。

AGI竞赛愈演愈烈!就在OpenAI宣布将于未来12天直播新发布和demo前,昨夜,Google DeepMind发布大型基础世界模型Genie 2,能生成各种可控制动作、可玩的3D环境,还可以用于训练和评估具身agent。

“智东西”

通用性的提升

此外,Genie 2还为AI agent的训练与评估解锁了无限可能。它能够生成具身AI未见过的任务环境,从而测试和提升AI系统的适应性。例如,Google DeepMind联合开发商推出的SIMA agent便通过这种方式实现了场景化任务执行能力。这不仅解决了传统具身智能因训练环境单一而导致的瓶颈,还为教培行业AI应用提供全新人机交互场景,显著增强了学习效果。这些功能也表明,Genie 2正在赋能整个AI企业解决方案行业。

展望未来,Google DeepMind计划进一步优化Genie 2模型的通用性与一致性,使其在更多复杂场景中具备无缝生成能力。这一研究方向为杭州Langchain AI开发这样的团队打开了引入可控3D建模技术的大门,也为那些希望提升交互效果的本地化企业提供了独特机遇。在浙江AI解决方案应用生态的推动下,Genie 2可能成为教育、税务、游戏开发等领域的技术基石,乃至掀起虚拟世界内容生成的全新风潮。

如有侵权,请联系删除。

Related Articles