OpenAI活动第三弹：推出 Sora 视频生成器

2024年12月10日由 daydream 发表 393 0

OpenAI正式发布了其文本转视频AI模型Sora，作为为期12天的“产品发布狂欢节”系列活动的一部分。Sora现面向美国和“大多数其他国家”的ChatGPT订阅用户开放，用户可通过Sora.com网站以及新推出的Sora Turbo模型进行体验。新版本增添了从文本生成视频、图像动画化以及视频混剪等功能。

微信截图_20241210091758

根据OpenAI的介绍，ChatGPT Plus订阅用户每月可优先生成最多50个视频（1000个积分），分辨率为720p，时长为5秒。而上周推出的每月200美元的ChatGPT Pro订阅服务则提供了“无限次生成”功能，并可将视频数量提升至500个，同时将分辨率提高至1080p，时长延长至20秒。更昂贵的计划还允许用户下载不带水印的视频，并同时进行最多5次的视频生成。

OpenAI早在今年2月就首次透露了Sora文本转视频AI模型的消息。

用户现在可以通过一个全新的专用网站访问Sora。该界面包含了多个工具，旨在简化视频生成的工作流程。用户需首先输入一个提示，指定视频应呈现的内容。随后，用户可以自定义Sora生成帧的风格、视频长度等细节。Sora可以输出三种不同比例的视频：宽屏、竖屏和方形。

为实现视频比例的自由切换，OpenAI对Sora进行了专门的训练，引入了所谓的“时空补丁”技术。这些补丁是数据的单位，类似于大型语言模型处理文本时所使用的信息片段（即标记）。时空补丁为视频生成AI处理的多模态数据提供了一种标准化的存储方式。与标记可以存储包括散文和代码在内的多种文本类型类似，时空补丁也可以存储具有不同比例的视频。

OpenAI通过两步过程创建了用于训练Sora的补丁。首先，它将训练数据集中的每个视频转换为潜在空间，这是一种抽象的数学表示，所需的存储空间比原始文件少。然后，它将潜在空间分割成更小的块，每个块都是一个独立的时空补丁。

除了允许Sora调整视频比例外，时空补丁技术还为开发过程带来了其他好处。OpenAI表示，使用时空补丁可以训练Sora处理不同时长、分辨率和比例的视频，从而简化了开发流程。

此外，OpenAI还为Sora提供了一套更高级的视频自定义控件。高级用户可以将视频分割成多个段落，并为每个段落输入不同的指令进行自定义。如果某一帧不符合要求，用户还可以通过输入后续提示进行修改。Sora还提供了提取某一帧并将其扩展以创建全新视频的功能。

名为“Blend”的功能允许用户将两个视频片段合并成一个新视频。在Sora界面的另一个部分，“精选”和“最新”板块展示了其他用户创建的视频。

值得注意的是，OpenAI在2月预览的Sora原始版本可以生成长达一分钟的视频片段。而此次发布时，时长限制为20秒，因此未来ChatGPT可能会更新以支持更长的视频。

此外，Sora目前尚未在ChatGPT的商业版本中推出。如果未来将其引入这些计划，OpenAI可能会增加专门面向专业视频团队的功能，例如创建共享内容库，以便团队集中存储使用Sora创建的素材。

文章来源：https://www.theverge.com/2024/12/9/24317092/openai-sora-text-to-video-ai-launch

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇全球生成人工智能自动化市场将增长17%

下一篇谷歌发布突破性量子计算芯片“Willow”

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来