腾讯混元发布了其最新的图生视频模型,并对外进行了开源。该模型允许用户通过上传一张图片,并简短描述画面运动及镜头调度需求,即可生成5秒的短视频,且自动配以背景音效。
此外,该模型还具备“对口型”与“动作驱动”功能。用户只需上传人物图片,并输入希望“对口型”的文字或音频,图片中的人物即可呈现“说话”或“唱歌”的效果。同时,使用“动作驱动”功能,用户还能一键生成同款跳舞视频。
目前,公众可通过混元AI视频官网进行体验,而企业和开发者则可在腾讯云申请使用API接口。此次开源的图生视频模型是混元文生视频模型开源工作的延续,模型总参数量为130亿,适用于多种角色和场景生成,包括写实视频、动漫角色及CGI角色等。
开源内容涵盖了权重、推理代码以及LoRA训练代码,支持开发者基于混元训练专属的LoRA等衍生模型。目前,该模型已在Github、HuggingFace等主流开发者社区上线,供用户下载体验。
据混元开源技术报告透露,其视频生成模型具备灵活的扩展性,图生视频和文生视频在相同数据集上预训练。模型在保持超写实画质、流畅演绎大幅度动作及原生镜头切换等特性的同时,还能捕捉丰富的视觉和语义信息,并结合图像、文本、音频和姿态等多种输入条件,实现生成视频的多维度控制。
自开源以来,混元视频生成模型一直备受关注。去年12月,该模型在HuggingFace全站趋势榜上登顶,目前Github平台上的Star数已超过8.9K。多位开发者自发制作了基于社区Hunyuanvideo的插件与衍生模型,累计衍生版本超过900个。更早开源的混元DiT文生图模型,在国内外衍生模型数量也达到了1600多个。
至此,混元开源系列模型已完整覆盖文本、图像、视频和3D生成等多个模态,在Github上累计获得了超过2.3万开发者的关注和Star。