Genmo发布开源视频生成模型Mochi 1预览版

2024年10月23日 由 daydream 发表 336 0

近日,人工智能内容生成平台Genmo宣布推出其全新的开源模型Mochi 1预览版,该模型具备视频生成能力。


微信截图_20241023105144


据介绍,Mochi 1在动态质量的先进性方面取得了显著提升,并能更好地遵循用户撰写的查询文本指令。通常,人工智能模型在接收到具体文本指令后仍可能“天马行空”,而Genmo表示,其模型经过训练,能够严格遵循指令。


除了发布新模型外,Genmo还推出了一个托管试玩平台,用户可免费试用Mochi 1。该模型的权重也在AI模型托管网站Hugging Face上可供下载。


同时,Genmo透露公司已获得2840万美元的A轮融资,由NEA领投,The House Fund、Gold House Ventures、WndrCo、Eastlink Capital Partners和Essence VC参与投资。这笔资金将用于推动Genmo所称的“人工智能通用智能的右脑”开发。


Mochi 1被视为Genmo构建“右脑”的第一步,右脑通常与创造力相关联,而左脑则与分析和逻辑思维相关。自Runway AI Inc.的模型和OpenAI的Sora等高性能AI视频生成器问世以来,视频生成领域吸引了大量投资和工作投入。


Genmo表示,新模型通过理解流体运动、毛发模拟和人类运动等物理学原理,为逼真的运动动态设定了高标准。该模型能够以每秒30帧的速度生成长达5.4秒的视频,这是目前市场上大多数模型的行业标准。


在接收指令时,该模型能够非常紧密地遵循用户的明确且简洁的指示,从而生成准确反映用户要求的视频,为用户提供对角色、场景和其他控制的详细掌控。


为构建Mochi 1,Genmo采用了拥有100亿参数的扩散模型,这代表可用于训练模型以提高其准确性的变量数量。在底层架构上,公司使用了其自研的非对称扩散变换器(AsymmDiT)架构,据称该架构能够高效地处理用户提示和压缩的视频标记,通过简化文本处理来专注于视觉内容。


AsymmDiT通过文本和视觉标记联合构建视频,与Stable Diffusion 3类似,但Genmo表示其流式架构的文本流参数几乎是后者的四倍,且通过更大的隐藏维度实现。采用非对称设计,可降低部署时的内存使用。


Mochi 1预览版展示了能够生成480p视频的基线模型,而公司表示,正式版模型将在年底前发布,其中包括支持720p视频生成和更高保真度平滑运动的Mochi 1 HD。


Genmo表示,Mochi 1是从零开始完全训练的。拥有100亿参数的它,是目前发布的最大的开源视频生成模型。公司的现有闭源图像和视频生成模型已拥有超过200万用户。Mochi 1的模型权重和源代码已在GitHub和Hugging Face上以Apache 2.0开源许可证发布,供开发人员和研究人员使用。

文章来源:https://siliconangle.com/2024/10/22/genmo-introduces-mochi-1-open-source-text-video-generation-model/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消