腾讯正式发布了其最新研发的AI视频生成模型,该模型以惊人的130亿参数规模,一举成为当前参数量最大的开源视频生成模型。为了让更多开发者能够受益,腾讯不仅将模型的权重、推理代码、算法等核心资源全部上传至GitHub与Hugging Face平台,更实现了全面开源,无任何保留。
目前,该视频生成模型已在腾讯元宝APP上线,广大用户可以在AI应用中的“AI视频”板块申请试用,亲身体验这一前沿技术的魅力。同时,腾讯还同步开放了API测试接口,开发者可以通过腾讯云轻松接入,进一步拓展其应用场景。
腾讯混元视频生成模型以其四大显著特点,引领了视频生成技术的新潮流。首先,其超写实画质为用户带来了高清、真实的视觉体验,完全满足工业级商业场景的需求,如广告宣传、创意视频生成等。其次,高语义一致性使得用户能够细致刻画生成内容,模型能够准确表达文本意图,为用户提供了极大的创作自由度。此外,运动画面的流畅度以及原生镜头转换功能,更是增强了视频的叙事感和观赏性。
为了帮助开发者更好地使用该模型,腾讯官方还提供了详尽的prompt使用小技巧。用户可以根据不同的创作需求,选择不同的提示词组合方式,如“主体+场景+运动”、“主体(主体描述)+场景(场景描述)+运动(运动描述)+(镜头语言)+(氛围描述)+(风格表达)”等,实现多样化的视频生成效果。
在技术层面,腾讯混元视频生成模型同样表现出色。官方评估结果显示,该模型在文本视频一致性、运动质量和画面质量等多个维度上均处于领先地位。此外,该模型还具备三大技术亮点:一是文本编码器部分已经适配新一代多模态大语言模型,实现了更强大的语义跟随能力;二是视觉编码器部分支持混合图片/视频训练,显著提升了压缩重建性能;三是采用统一的全注意力机制,使得视频生成更为流畅,实现了主体一致的多视角镜头切换。
更多关于腾讯混元生成的视频以及与Sora同提示词的对比效果,用户可以在量子位等内测阶段参与的平台进行尝试。