阿里推出“轨迹可控版Sora”——Tora,让视频生成更符合物理规律

2024年08月05日 由 neo 发表 609 0

在AI技术日新月异的今天,视频生成赛道正经历着一场前所未有的变革。国内外各大科技企业纷纷推出创新的文生、图生视频产品,竞争日益激烈,视频生成效果已逐步逼近“以假乱真”的境界。然而,在这一片繁荣景象之下,多数视频生成模型仍面临精准度不足、指令遵循能力有限等挑战,用户往往需要经过多次尝试才能获取满意的结果,这不仅增加了算力成本,还造成了资源的极大浪费。

ce88-d144650026e50f8ea63d648eddb1cec7

为了破解这一难题,提升视频生成的精准度和效率,阿里巴巴团队近期隆重推出了全新的视频生成模型——Tora。这款模型以其独特的轨迹控制能力和高度的灵活性,为视频生成领域树立了新的标杆。Tora能够基于轨迹、图像、文本或其任意组合,通过简单的输入快速生成精确运动控制的视频,同时还支持首尾帧控制功能,极大地提升了视频生成的可控性和精确度。

作为首个面向轨迹的DiT(Diffusion Transformer)框架模型,Tora充分利用了DiT架构的可扩展性优势,使得生成的物体运动能够精准地遵循预设轨迹,并且能够有效模拟物理世界的动态变化。这一创新不仅解决了传统视频生成模型在轨迹控制方面的不足,还极大地拓宽了视频生成的应用场景和创意空间。

c9ce-gif3f6ec9cb9435a3c1e44aa6c87510b79d8778-gifdd3248581747b6f82e28844d6d576056

Tora的推出,标志着阿里巴巴在AI视频生成领域的又一次重大突破。该模型通过集成轨迹提取器、时空DiT和运动引导融合器等先进组件,实现了对视频生成过程的全面优化。其中,轨迹提取器能够将用户输入的轨迹信息编码为多层时空运动补丁,而运动引导融合器则负责将这些运动补丁无缝整合到DiT模块中,确保生成的视频能够严格遵循预定义的轨迹。

此外,Tora还支持不同时长、宽高比和分辨率的视频内容生成,能够满足不同用户的多样化需求。在720p分辨率下,Tora甚至能够生成长达204帧的稳定运动视频,这在同类产品中极为罕见。这一性能的提升,得益于Tora对DiT架构的深入理解和优化,以及对运动控制技术的不断创新。

随着Tora模型的发布和相关论文在arXiv上的公布(论文链接:https://arxiv.org/abs/2407.21705),阿里巴巴在AI视频生成领域的领先地位得到了进一步巩固。未来,随着技术的不断迭代和优化,Tora有望引领视频生成领域进入一个新的发展阶段,为用户带来更加高效、精准、便捷的视频创作体验。

在这场风起云涌的AI视频生成竞赛中,阿里巴巴以Tora模型为先锋,正不断推动行业向更高水平迈进。我们有理由相信,在不久的将来,视频生成技术将更加成熟和完善,为我们的生活和工作带来更多惊喜和便利。

文章来源:https://finance.sina.com.cn/tech/roll/2024-08-04/doc-inchncvk2135106.shtml
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消