Pyramid Flow:开源AI视频生成模型新秀

2024年10月11日 由 daydream 发表 165 0

近日,一种名为Pyramid Flow的AI视频生成模型正式发布。该模型由北京大学、北京邮电大学和快手科技的研究人员共同开发。Pyramid Flow采用了一种新的技术,通过分阶段的方式生成视频,大部分过程以低分辨率进行处理,仅在最后阶段生成高分辨率版本。


微信截图_20241011111152


Pyramid Flow是开源项目,用户可以在Hugging Face和GitHub上下载代码,并自行运行模型。根据报道,该模型能够在56秒内生成一段5秒钟、分辨率为384p的视频,其速度与市面上一些全序列扩散模型相当。尽管如此,Runway的Gen 3-Alpha Turbo模型在速度方面仍然领先,通常在10到20秒内完成相同任务。


Pyramid Flow的设计允许商业使用,并直接对标诸如Runway的Gen-3 Alpha、Luma的Dream Machine等付费专有解决方案。这些专有服务每年订阅费用可能高达数百甚至数千美元。


Pyramid Flow基于金字塔流匹配(pyramidal flow matching)的概念构建,这一方法旨在减少计算成本的同时保持高质量的视频输出。整个视频生成过程被分为多个“金字塔”阶段,只有最后一个阶段工作于全分辨率。


据相关论文显示,Pyramid Flow训练所使用的数据集包括LAION-5B、CC-12M、SA-1B以及WebVid-10M和OpenVid-1M等视频数据集。值得注意的是,其中某些公开或开源的数据集因包含未经授权的版权材料而受到批评。


虽然Pyramid Flow提供了免费且开放源码的选择,但它的高级调校功能不及某些商业模型,比如对摄像机角度、关键帧及人物姿态的精细控制。此外,由于Pyramid Flow刚推出不久,其生态系统相比竞争对手还不够成熟。


随着AI视频生成市场的不断发展,Pyramid Flow的出现预示着更加开放和可访问的解决方案正在兴起,它们正试图与现有的专有产品竞争。未来数月内,开发者和创作者将密切关注Pyramid Flow的发展及其带来的可能性。

文章来源:https://venturebeat.com/ai/new-high-quality-ai-video-generator-pyramid-flow-launches-and-its-fully-open-source/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消