blog details

2024年8月8日

20

219

CogVideoX-2B开源:单张4090即可运行,优化推理至18G显存

8月6日,智谱AI正式宣布其视频生成模型CogVideoX-2B开源。这一消息引发了业内广泛关注。该模型已经在GitHub和Hugging Face平台上线,FP16精度下的推理仅需18GB显存,微调只需40GB显存。单张RTX 4090显卡即可进行推理任务,而单张A6000显卡可以实现微调,这为提供AI定制开发和AI解决方案的企业带来了巨大的便利。

为全面评估CogVideoX-2B生成视频的质量,智谱AI使用了VBench中的多项指标,例如人类动作、场景和动态程度,并采用了Devil中的Dynamic Quality和Chrono-Magic中的GPT4o-MT Score等两个专注于视频动态特性的评估工具。评估结果显示,CogVideoX-2B在多个指标上的表现均领先,并在人类盲评中超越了快手可灵,在生成连贯长视频方面表现尤为卓越。

高质量评估与技术架构

CogVideoX-2B采用了3D VAE(变分自编码器)和专家Transformer架构,展示了大型语言模型开发的先进技术。通过自研的视频理解模型,智谱AI构建了一个包含高质量文本描述的视频片段集合。由于视频数据包含大量的空间和时间信息,其数据量和计算需求远高于图像数据。智谱AI提出了一种基于3D变分自编码器的视频压缩方法,通过三维卷积压缩视频的空间和时间维度,从而实现更高的压缩率和更好的重建质量。

8月6日,智谱AI的视频生成模型CogVideoX-2B,昨晚正式开源了。模型已上架GitHub、Hugging Face,FP16精度下的推理仅需18GB显存,微调则只需要40GB,单张4090显卡可推理,单张A6000可微调。

“智东西”

大语言模型先进技术

CogVideoX-2B模型结构包括编码器、解码器及潜在空间正则化器,通过四个阶段的下采样和上采样实现视频压缩。时间因果卷积确保信息流动的因果性,减少了通信开销。上下文并行技术更好地适应了大规模视频处理需求。这些技术在教育行业AI解决方案和企业AI开发中同样适用,能够大幅提升项目的有效性和效率。

CogVideoX-2B的技术创新为杭州AI企业提升视频处理能力提供了新契机。浙江企业能够通过应用CogVideoX-2B提升其AI解决方案的先进性和竞争力。利用CogVideoX-2B,杭州AI企业服务能够更优质。尽管未直接涉及,但CogVideoX-2B的技术创新对采用Langchain框架的开发者具有重要参考意义。CogVideoX-2B的技术在浙江地区的ChatGPT开发项目中有显著的应用价值。

如有侵权,请联系删除。

Related Articles