腾讯混元图生视频模型开源！一键生成创意短视频

2025年03月06日由 daydream 发表 2866 0

腾讯混元发布了其最新的图生视频模型，并对外进行了开源。该模型允许用户通过上传一张图片，并简短描述画面运动及镜头调度需求，即可生成5秒的短视频，且自动配以背景音效。

微信截图_20250306165914

此外，该模型还具备“对口型”与“动作驱动”功能。用户只需上传人物图片，并输入希望“对口型”的文字或音频，图片中的人物即可呈现“说话”或“唱歌”的效果。同时，使用“动作驱动”功能，用户还能一键生成同款跳舞视频。

目前，公众可通过混元AI视频官网进行体验，而企业和开发者则可在腾讯云申请使用API接口。此次开源的图生视频模型是混元文生视频模型开源工作的延续，模型总参数量为130亿，适用于多种角色和场景生成，包括写实视频、动漫角色及CGI角色等。

开源内容涵盖了权重、推理代码以及LoRA训练代码，支持开发者基于混元训练专属的LoRA等衍生模型。目前，该模型已在Github、HuggingFace等主流开发者社区上线，供用户下载体验。

据混元开源技术报告透露，其视频生成模型具备灵活的扩展性，图生视频和文生视频在相同数据集上预训练。模型在保持超写实画质、流畅演绎大幅度动作及原生镜头切换等特性的同时，还能捕捉丰富的视觉和语义信息，并结合图像、文本、音频和姿态等多种输入条件，实现生成视频的多维度控制。

自开源以来，混元视频生成模型一直备受关注。去年12月，该模型在HuggingFace全站趋势榜上登顶，目前Github平台上的Star数已超过8.9K。多位开发者自发制作了基于社区Hunyuanvideo的插件与衍生模型，累计衍生版本超过900个。更早开源的混元DiT文生图模型，在国内外衍生模型数量也达到了1600多个。

至此，混元开源系列模型已完整覆盖文本、图像、视频和3D生成等多个模态，在Github上累计获得了超过2.3万开发者的关注和Star。

文章来源：https://mp.weixin.qq.com/s/aOeJoWyQ78o45KlJnAtAkg

标签：

腾讯混元视频模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇即梦AI全新上线“动作模拟”功能，打造个性化动态视频

下一篇 Stability AI推出新模型，可将照片转化为3D场景视频

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来