By 张伟
2024年8月8日
20
219
CogVideoX-2B开源:单张4090即可运行,优化推理至18G显存
8月6日,智谱AI正式宣布其视频生成模型CogVideoX-2B开源。这一消息引发了业内广泛关注。该模型已经在GitHub和Hugging Face平台上线,FP16精度下的推理仅需18GB显存,微调只需40GB显存。单张RTX 4090显卡即可进行推理任务,而单张A6000显卡可以实现微调,这为提供AI定制开发和AI解决方案的企业带来了巨大的便利。
高质量评估与技术架构
为全面评估CogVideoX-2B生成视频的质量,智谱AI使用了VBench中的多项指标,例如人类动作、场景和动态程度,并采用了Devil中的Dynamic Quality和Chrono-Magic中的GPT4o-MT Score等两个专注于视频动态特性的评估工具。评估结果显示,CogVideoX-2B在多个指标上的表现均领先,并在人类盲评中超越了快手可灵,在生成连贯长视频方面表现尤为卓越。
大语言模型先进技术
CogVideoX-2B采用了3D VAE(变分自编码器)和专家Transformer架构,展示了大型语言模型开发的先进技术。通过自研的视频理解模型,智谱AI构建了一个包含高质量文本描述的视频片段集合。由于视频数据包含大量的空间和时间信息,其数据量和计算需求远高于图像数据。智谱AI提出了一种基于3D变分自编码器的视频压缩方法,通过三维卷积压缩视频的空间和时间维度,从而实现更高的压缩率和更好的重建质量。
8月6日,智谱AI的视频生成模型CogVideoX-2B,昨晚正式开源了。模型已上架GitHub、Hugging Face,FP16精度下的推理仅需18GB显存,微调则只需要40GB,单张4090显卡可推理,单张A6000可微调。
“智东西”优化后的模型结构
CogVideoX-2B模型结构包括编码器、解码器及潜在空间正则化器,通过四个阶段的下采样和上采样实现视频压缩。时间因果卷积确保信息流动的因果性,减少了通信开销。上下文并行技术更好地适应了大规模视频处理需求。这些技术在教育行业AI解决方案和企业AI开发中同样适用,能够大幅提升项目的有效性和效率。
总结
CogVideoX-2B的技术创新为杭州AI企业提升视频处理能力提供了新契机。浙江企业能够通过应用CogVideoX-2B提升其AI解决方案的先进性和竞争力。利用CogVideoX-2B,杭州AI企业服务能够更优质。尽管未直接涉及,但CogVideoX-2B的技术创新对采用Langchain框架的开发者具有重要参考意义。CogVideoX-2B的技术在浙江地区的ChatGPT开发项目中有显著的应用价值。
如有侵权,请联系删除。
Related Articles
-
Fri Apr 17 2026湖北省智能体公共服务平台启动建设 AI产业有了'公共底座'!
在2026年湖北人工智能产业发展生态大会上,湖北省智能体公共服务平台正式启动建设,目标是解决企业算力成本高、场景落地慢等痛点。
-
Fri Apr 17 2026OpenClaw龙虾、Token词元与大模型、智能体、AI发展新范式全景解析,年度AI大会终极议程公布
2026中国生成式AI大会(北京站)将于4月21-22日举办,主题为“奔赴AGI 重塑未来”,旨在汇聚学界与产业界力量,探讨生成式AI与智能体发展的新范式。
-
Fri Apr 17 2026Pharma.AI 2026春季发布会:驱动制药超级智能未来
英矽智能于4月14日举办Pharma.AI 2026春季发布会,展示在制药领域的最新AI能力与产品模块升级,强调构建决策驱动的AI生态系统。
-
Fri Apr 17 2026深信服受邀分享AI智能体安全治理'新解法'
在2026年世界互联网大会亚太峰会上,深信服副总裁杜智伟提出面向AI智能体的安全治理新范式,强调从内容合规向行为可控转型。
-
Fri Apr 17 2026AI生成内容暴增14倍 重塑网络视听生产体系
《中国网络视听发展研究报告(2026)》显示,我国网络视听用户规模与市场规模持续扩大,AI生成内容数量激增,正在改变内容生产与传播格局。
-
Fri Apr 17 2026深信服受邀分享AI智能体安全治理'新解法'
在2026年世界互联网大会亚太峰会上,深信服副总裁杜智伟就AI智能体安全治理发表演讲,强调应从传统的内容合规向行为可控的治理范式转型,以应对新一代数字员工类智能体带来的复杂风险。
