腾讯版Sora正式发布，130亿参数全面开源

2024年12月03日由 neo 发表 400 0

腾讯正式发布了其最新研发的AI视频生成模型，该模型以惊人的130亿参数规模，一举成为当前参数量最大的开源视频生成模型。为了让更多开发者能够受益，腾讯不仅将模型的权重、推理代码、算法等核心资源全部上传至GitHub与Hugging Face平台，更实现了全面开源，无任何保留。

QQ截图20241203155835

目前，该视频生成模型已在腾讯元宝APP上线，广大用户可以在AI应用中的“AI视频”板块申请试用，亲身体验这一前沿技术的魅力。同时，腾讯还同步开放了API测试接口，开发者可以通过腾讯云轻松接入，进一步拓展其应用场景。

QQ截图20241203155638

腾讯混元视频生成模型以其四大显著特点，引领了视频生成技术的新潮流。首先，其超写实画质为用户带来了高清、真实的视觉体验，完全满足工业级商业场景的需求，如广告宣传、创意视频生成等。其次，高语义一致性使得用户能够细致刻画生成内容，模型能够准确表达文本意图，为用户提供了极大的创作自由度。此外，运动画面的流畅度以及原生镜头转换功能，更是增强了视频的叙事感和观赏性。

2024_1203_6dd57ec2g00snwp69047ad000jk00b2m

为了帮助开发者更好地使用该模型，腾讯官方还提供了详尽的prompt使用小技巧。用户可以根据不同的创作需求，选择不同的提示词组合方式，如“主体+场景+运动”、“主体(主体描述)+场景(场景描述)+运动(运动描述)+(镜头语言)+(氛围描述)+(风格表达)”等，实现多样化的视频生成效果。

在技术层面，腾讯混元视频生成模型同样表现出色。官方评估结果显示，该模型在文本视频一致性、运动质量和画面质量等多个维度上均处于领先地位。此外，该模型还具备三大技术亮点：一是文本编码器部分已经适配新一代多模态大语言模型，实现了更强大的语义跟随能力；二是视觉编码器部分支持混合图片/视频训练，显著提升了压缩重建性能；三是采用统一的全注意力机制，使得视频生成更为流畅，实现了主体一致的多视角镜头切换。

更多关于腾讯混元生成的视频以及与Sora同提示词的对比效果，用户可以在量子位等内测阶段参与的平台进行尝试。

文章来源：https://www.thepaper.cn/newsDetail_forward_29500018

标签：

腾讯 Sora AI视频

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇智能视频分析器：SMAST引领AI在复杂视频分析中的新突破

下一篇谷歌推出Veo视频生成模型，并开放Imagen 3图像生成技术

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来