在过去的一周里,OpenAI的新生成工具Sora引发了热烈的技术讨论,引发了粉丝和评论家极大的热情和担忧。
Sora是一种文本到视频的模型,它显著推进了深度学习、自然语言处理和计算机视觉的集成,将文本提示转换为详细连贯的生活类视频内容。
与Meta的Make-A-video等以前的文本到视频技术相比,Sora能够克服与它可以解释的视觉数据类型、视频长度和分辨率相关的限制。
根据OpenAI的演示,Sora可以生成各种长度的视频,并且具有高清晰度,满足广泛的创作需求。
尽管尚未宣布正式发布日期,但根据OpenAI的典型公开发布模式判断,Sora很可能在未来几个月向公众开放。目前,它只提供给专家和少数艺术家和电影制作人。
Sora是如何工作的
Sora创新的核心是一种将视觉数据转换为易于理解和操作的格式的技术,类似于基于文本的应用程序将单词分解为token进行人工智能处理的方式。
这个过程包括将视频数据压缩成更易于管理的形式,并将其分解为补丁或片段。这些片段就像积木一样,Sora可以重新排列以创建新的视频。
Sora将深度学习、自然语言处理和计算机视觉相结合来实现其功能。
深度学习有助于它理解和生成复杂的数据模式,自然语言处理解释文本提示以创建视频,计算机视觉使它能够准确理解和生成视觉内容。
扩散模型是一种特别擅长生成高质量图像和视频的模型,通过使用扩散模型,Sora可以获取嘈杂、不完整的数据,并将其转换为清晰、连贯的视频内容。
Sora的方法不同于需要大量手动操作的CGI角色创建,也不同于通常缺乏道德保障的传统深度伪造技术,它提供了一种基于文本输入生成视频内容的可扩展和适应性强的方法。