Genmo发布开源视频生成模型Mochi 1预览版

2024年10月23日由 daydream 发表 697 0

近日，人工智能内容生成平台Genmo宣布推出其全新的开源模型Mochi 1预览版，该模型具备视频生成能力。

微信截图_20241023105144

据介绍，Mochi 1在动态质量的先进性方面取得了显著提升，并能更好地遵循用户撰写的查询文本指令。通常，人工智能模型在接收到具体文本指令后仍可能“天马行空”，而Genmo表示，其模型经过训练，能够严格遵循指令。

除了发布新模型外，Genmo还推出了一个托管试玩平台，用户可免费试用Mochi 1。该模型的权重也在AI模型托管网站Hugging Face上可供下载。

同时，Genmo透露公司已获得2840万美元的A轮融资，由NEA领投，The House Fund、Gold House Ventures、WndrCo、Eastlink Capital Partners和Essence VC参与投资。这笔资金将用于推动Genmo所称的“人工智能通用智能的右脑”开发。

Mochi 1被视为Genmo构建“右脑”的第一步，右脑通常与创造力相关联，而左脑则与分析和逻辑思维相关。自Runway AI Inc.的模型和OpenAI的Sora等高性能AI视频生成器问世以来，视频生成领域吸引了大量投资和工作投入。

Genmo表示，新模型通过理解流体运动、毛发模拟和人类运动等物理学原理，为逼真的运动动态设定了高标准。该模型能够以每秒30帧的速度生成长达5.4秒的视频，这是目前市场上大多数模型的行业标准。

在接收指令时，该模型能够非常紧密地遵循用户的明确且简洁的指示，从而生成准确反映用户要求的视频，为用户提供对角色、场景和其他控制的详细掌控。

为构建Mochi 1，Genmo采用了拥有100亿参数的扩散模型，这代表可用于训练模型以提高其准确性的变量数量。在底层架构上，公司使用了其自研的非对称扩散变换器（AsymmDiT）架构，据称该架构能够高效地处理用户提示和压缩的视频标记，通过简化文本处理来专注于视觉内容。

AsymmDiT通过文本和视觉标记联合构建视频，与Stable Diffusion 3类似，但Genmo表示其流式架构的文本流参数几乎是后者的四倍，且通过更大的隐藏维度实现。采用非对称设计，可降低部署时的内存使用。

Mochi 1预览版展示了能够生成480p视频的基线模型，而公司表示，正式版模型将在年底前发布，其中包括支持720p视频生成和更高保真度平滑运动的Mochi 1 HD。

Genmo表示，Mochi 1是从零开始完全训练的。拥有100亿参数的它，是目前发布的最大的开源视频生成模型。公司的现有闭源图像和视频生成模型已拥有超过200万用户。Mochi 1的模型权重和源代码已在GitHub和Hugging Face上以Apache 2.0开源许可证发布，供开发人员和研究人员使用。

文章来源：https://siliconangle.com/2024/10/22/genmo-introduces-mochi-1-open-source-text-video-generation-model/

标签：

Genmo 模型视频

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇华为正式发布鸿蒙5.0，纯血鸿蒙系统惊艳亮相

下一篇谷歌DeepMind推出Talker-Reasoner代理框架，融合人类思维双系统

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来