近日,人工智能内容生成平台Genmo宣布推出其全新的开源模型Mochi 1预览版,该模型具备视频生成能力。
据介绍,Mochi 1在动态质量的先进性方面取得了显著提升,并能更好地遵循用户撰写的查询文本指令。通常,人工智能模型在接收到具体文本指令后仍可能“天马行空”,而Genmo表示,其模型经过训练,能够严格遵循指令。
除了发布新模型外,Genmo还推出了一个托管试玩平台,用户可免费试用Mochi 1。该模型的权重也在AI模型托管网站Hugging Face上可供下载。
同时,Genmo透露公司已获得2840万美元的A轮融资,由NEA领投,The House Fund、Gold House Ventures、WndrCo、Eastlink Capital Partners和Essence VC参与投资。这笔资金将用于推动Genmo所称的“人工智能通用智能的右脑”开发。
Mochi 1被视为Genmo构建“右脑”的第一步,右脑通常与创造力相关联,而左脑则与分析和逻辑思维相关。自Runway AI Inc.的模型和OpenAI的Sora等高性能AI视频生成器问世以来,视频生成领域吸引了大量投资和工作投入。
Genmo表示,新模型通过理解流体运动、毛发模拟和人类运动等物理学原理,为逼真的运动动态设定了高标准。该模型能够以每秒30帧的速度生成长达5.4秒的视频,这是目前市场上大多数模型的行业标准。
在接收指令时,该模型能够非常紧密地遵循用户的明确且简洁的指示,从而生成准确反映用户要求的视频,为用户提供对角色、场景和其他控制的详细掌控。
为构建Mochi 1,Genmo采用了拥有100亿参数的扩散模型,这代表可用于训练模型以提高其准确性的变量数量。在底层架构上,公司使用了其自研的非对称扩散变换器(AsymmDiT)架构,据称该架构能够高效地处理用户提示和压缩的视频标记,通过简化文本处理来专注于视觉内容。
AsymmDiT通过文本和视觉标记联合构建视频,与Stable Diffusion 3类似,但Genmo表示其流式架构的文本流参数几乎是后者的四倍,且通过更大的隐藏维度实现。采用非对称设计,可降低部署时的内存使用。
Mochi 1预览版展示了能够生成480p视频的基线模型,而公司表示,正式版模型将在年底前发布,其中包括支持720p视频生成和更高保真度平滑运动的Mochi 1 HD。
Genmo表示,Mochi 1是从零开始完全训练的。拥有100亿参数的它,是目前发布的最大的开源视频生成模型。公司的现有闭源图像和视频生成模型已拥有超过200万用户。Mochi 1的模型权重和源代码已在GitHub和Hugging Face上以Apache 2.0开源许可证发布,供开发人员和研究人员使用。