豆包大模型团队联合高校开源视频生成模型VideoWorld

2025年02月10日 由 daydream 发表 488 0

豆包大模型团队携手北京交通大学与中国科学技术大学,共同研发的视频生成实验模型VideoWorld已正式对外开源。该模型在业界实现了一项重要突破:无需依赖语言模型,即可完成对世界的认知。


微信截图_20250210155740


据悉,当前主流的多模态模型,如Sora、DALL-E和Midjourney等,大多依赖于语言或标签数据来进行知识学习。然而,语言在描述真实世界的所有知识时存在局限性。例如,折纸、打领结等复杂技能,往往难以通过语言进行精确描述。VideoWorld则摒弃了语言模型,实现了统一执行理解和推理任务的能力。


VideoWorld基于一种潜在动态模型构建,该模型能够有效压缩视频帧间的变化信息,从而提高了知识学习的效率和效果。值得注意的是,在没有依赖任何强化学习搜索或奖励函数机制的情况下,VideoWorld已经达到了专业5段9x9围棋的水平,并且能够在多种环境中执行机器人任务。


此次开源的VideoWorld模型,为视频生成和认知领域带来了新的研究方向和技术支持,有望推动相关技术的进一步发展。

文章来源:https://www.atyun.com/65378.html
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消