智谱AI正式开源CogVideoX，「清影」同款AI视频生成模型

2024年08月06日由 neo 发表 641 0

近日，国内人工智能企业智谱AI宣布了一项重大举措，正式将其自主研发的视频生成模型CogVideoX面向全球开发者开源，此举旨在进一步推动视频生成技术的飞速发展，拓宽其在商业及创意领域的应用边界。CogVideoX凭借其前沿的大型模型技术架构，不仅满足了高端商业应用的需求，更在性能优化上实现了显著突破。

下载(1)

开源版本效能卓越，单卡驱动创意无限

值得注意的是，此次开源的CogVideoX-2B版本在性能优化上展现了非凡实力。在FP-16精度下，该模型进行推理时仅需18GB显存，而微调阶段也仅需40GB显存，这意味着使用单张NVIDIA RTX 4090显卡即可轻松完成推理任务，而微调工作则可在单张NVIDIA A6000显卡上高效完成。这一重大突破极大地降低了技术门槛，使得更多开发者和小型企业能够轻松上手，参与到视频生成技术的创新与应用中来。

6385853491558926583113283

3D VAE赋能，重塑视频生成质量标杆

CogVideoX模型的核心竞争力在于其采用的3D变分自编码器（3D VAE）技术，该技术通过创新的三维卷积方式，同时压缩视频的空间与时间维度，实现了前所未有的高压缩率与卓越的重建质量。模型架构设计精妙，包括编码器、解码器以及潜在空间正则化器，通过时间因果卷积机制确保了信息处理的因果逻辑，保障了生成视频内容的连贯性与合理性。此外，模型还融合了专家Transformer技术，能够深度解析编码后的视频数据，结合文本输入，创造出高质量、富含故事性的视频内容。

2024_0806_541349a0g00shrpbr03kcd200go00b4g00go00b4

高质量数据驱动，解决视频生成痛点

为了训练出性能卓越的CogVideoX模型，智谱AI投入了大量资源开发了一套高效筛选高质量视频数据的方法。该方法有效排除了过度编辑、运动不连贯等低质量视频，确保了训练数据的高标准与纯净度。同时，团队还创新性地构建了从图像字幕到视频字幕的生成管道，巧妙解决了视频数据普遍缺乏详尽文本描述的问题，为模型学习提供了更加丰富、多维的信息源。

性能评估领先，未来探索不止

在多项关键性能评估指标上，CogVideoX均展现出卓越表现，尤其是在人类动作捕捉、场景还原、动态程度等方面，更是赢得了业界的广泛认可。同时，智谱AI还引入了专注于视频动态特性的评估工具，进一步细化了模型的评估维度。

文章来源：https://www.chinaz.com/ainews/10829.shtml

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇阿里推出“轨迹可控版Sora”——Tora，让视频生成更符合物理规律

下一篇 AWS升级Titan图像生成器v2

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来