快手视频生成大模型“可灵”开放邀测，效果对标 Sora

2024年06月07日由 daydream 发表 820 0

在OpenAI的文生视频大模型Sora发布后，国内视频生成技术领域迎来了新的竞争格局。近日，国内短视频平台快手宣布，其自研的“可灵”视频生成大模型官网已正式上线。

微信截图_20240607102159

作为国内短视频领域的领军者，快手凭借其多年在视频技术领域的深入积累，成功打造了这款具有广泛应用场景的视频生成大模型。据36kr报道，与市面上其他以展示视频为主的视频大模型不同，快手“可灵”大模型不仅在效果上与Sora对标，更在快手旗下的快影App中开放邀测体验，让用户能够亲身感受到其强大的视频生成能力。

快手“可灵”大模型由快手AI团队自主研发，采用了与Sora类似的技术路线，并结合了多项自研创新技术。这些技术优势使得“可灵”大模型在视频生成领域展现出卓越的性能。具体而言，它具备以下几个显著特点：

首先，“可灵”大模型能够生成大幅度的合理运动。通过采用3D时空联合注意力机制，该模型能够更好地建模视频中的复杂时空运动，使得生成的视频在保持流畅性的同时，更符合客观运动规律。

其次，“可灵”大模型能够模拟真实物理世界的特性。其自研的模型架构和强大的建模能力为用户构建了一个无限逼近现实的想象空间。无论是光影反射、重力影响下的流体运动，还是与物理世界的交互，“可灵”大模型都能够生成符合物理规律的视频。

此外，“可灵”大模型还具备强大的概念组合能力和想象力。它通过对文本-视频语义的深刻理解和基于Diffusion Transformer架构学到的强大概念组合能力，能够将用户丰富的想象力转化为具体的画面。这使得用户能够轻松地实现自己的创意想法。

v2_1b0d402c85274d1e846b5b2257552527@5679941_img_gif

值得一提的是，“可灵”大模型生成的视频分辨率高达1080p，时长可达2分钟（帧率30fps），并支持自由的输出视频宽高比。这一优势得益于其自研的3D VAE技术，该技术能够将视频编码到紧凑的隐空间并解码成带有丰富细节的视频。同时，高效的训练基础设施、极致的推理优化和可扩展的基础架构也保证了“可灵”大模型能够生成高质量的视频内容。

在研发过程中，“可灵”大模型配套建设了高效的大规模自动化数据解决方案，覆盖了海量视频挖掘、多维打标筛选、视频描述增强及数据驱动的效果质量评估等多个方面。这些措施确保了模型在训练过程中能够充分利用数据资源，提升模型的生成效果。

目前，“可灵”大模型已在快影App中开放邀测体验，支持创作者申请并体验最新的文生视频功能。未来，随着快手在AI大模型时代的全面布局，更多基于“可灵”大模型的应用方向也将陆续落地。例如，基于肢体驱动的“AI舞王”功能已在快手和快影App成功落地，用户只需上传一张照片即可体验一键跳舞的乐趣。未来还将首发上线“AI唱跳”新玩法，为用户提供更多元化的AI创作与互动体验。

文章来源：https://www.atyun.com/59660.html

标签：

快手大模型 Sora

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 ChatGPT App更新，支持在后台对话，或预示GPT-4o Voice的来临

下一篇 DuckDuckGo推出匿名AI聊天功能无需担心数据被训练

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来