阿里推出“轨迹可控版Sora”——Tora，让视频生成更符合物理规律

2024年08月05日由 neo 发表 737 0

在AI技术日新月异的今天，视频生成赛道正经历着一场前所未有的变革。国内外各大科技企业纷纷推出创新的文生、图生视频产品，竞争日益激烈，视频生成效果已逐步逼近“以假乱真”的境界。然而，在这一片繁荣景象之下，多数视频生成模型仍面临精准度不足、指令遵循能力有限等挑战，用户往往需要经过多次尝试才能获取满意的结果，这不仅增加了算力成本，还造成了资源的极大浪费。

ce88-d144650026e50f8ea63d648eddb1cec7

为了破解这一难题，提升视频生成的精准度和效率，阿里巴巴团队近期隆重推出了全新的视频生成模型——Tora。这款模型以其独特的轨迹控制能力和高度的灵活性，为视频生成领域树立了新的标杆。Tora能够基于轨迹、图像、文本或其任意组合，通过简单的输入快速生成精确运动控制的视频，同时还支持首尾帧控制功能，极大地提升了视频生成的可控性和精确度。

作为首个面向轨迹的DiT（Diffusion Transformer）框架模型，Tora充分利用了DiT架构的可扩展性优势，使得生成的物体运动能够精准地遵循预设轨迹，并且能够有效模拟物理世界的动态变化。这一创新不仅解决了传统视频生成模型在轨迹控制方面的不足，还极大地拓宽了视频生成的应用场景和创意空间。

c9ce-gif3f6ec9cb9435a3c1e44aa6c87510b79d 8778-gifdd3248581747b6f82e28844d6d576056

Tora的推出，标志着阿里巴巴在AI视频生成领域的又一次重大突破。该模型通过集成轨迹提取器、时空DiT和运动引导融合器等先进组件，实现了对视频生成过程的全面优化。其中，轨迹提取器能够将用户输入的轨迹信息编码为多层时空运动补丁，而运动引导融合器则负责将这些运动补丁无缝整合到DiT模块中，确保生成的视频能够严格遵循预定义的轨迹。

此外，Tora还支持不同时长、宽高比和分辨率的视频内容生成，能够满足不同用户的多样化需求。在720p分辨率下，Tora甚至能够生成长达204帧的稳定运动视频，这在同类产品中极为罕见。这一性能的提升，得益于Tora对DiT架构的深入理解和优化，以及对运动控制技术的不断创新。

随着Tora模型的发布和相关论文在arXiv上的公布（论文链接：https://arxiv.org/abs/2407.21705），阿里巴巴在AI视频生成领域的领先地位得到了进一步巩固。未来，随着技术的不断迭代和优化，Tora有望引领视频生成领域进入一个新的发展阶段，为用户带来更加高效、精准、便捷的视频创作体验。

在这场风起云涌的AI视频生成竞赛中，阿里巴巴以Tora模型为先锋，正不断推动行业向更高水平迈进。我们有理由相信，在不久的将来，视频生成技术将更加成熟和完善，为我们的生活和工作带来更多惊喜和便利。

文章来源：https://finance.sina.com.cn/tech/roll/2024-08-04/doc-inchncvk2135106.shtml

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Stability AI推出Stable Fast 3D：极速生成3D图像

下一篇智谱AI正式开源CogVideoX，「清影」同款AI视频生成模型

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来