Tavus推出AI模型家族以支持实时人脸互动

2025年03月07日 由 佚名 发表 218 0

Tavus公司是一家专注于开发能够模拟与他人交谈体验的实时AI技术模型的人工智能研究初创公司,今天宣布推出一系列突破性的AI模型。

公司表示正在构建他们称之为人机交互操作系统,名为“对话视频界面”,这将使AI能够自然地感知、解释和回应,就像在Zoom或FaceTime通话中与另一个人交谈一样。Tavus的使命是让AI理解面部表情、语气和肢体语言并解释其含义,同时也能通过自身的表情和语气做出足够的响应以传达意义。

“人类在进化上是为了面对面交流而设计的。所以,我们想教会机器如何能够做到这一点”首席执行官哈桑·拉扎在接受SiliconANGLE采访时表示。“如果我们相信科幻未来中有AI同事、朋友和助手,我们需要构建实现这一目标的界面。”

今天发布的产品包括三个模型:Phoenix-3,第一个能够传达细微表情的全脸AI渲染模型;Raven-0,一个突破性的AI感知模型,能够像人类一样观察和推理;以及Sparrow-0,一个最先进的轮流对话模型,为对话增添了“生命的火花”。

Phoenix-3是公司的旗舰基础模型,旨在创建“数字双胞胎”,即高度逼真的个人表现,并配备了AI驱动的人类表情能力,正如拉扎所解释的那样。现在是其第三次迭代,提供全脸动画,能够克隆人并准确表现每一块面部肌肉,这对于模仿细微表情至关重要。他说,大多数商业面部动画模型无法处理全脸,结果是下半部分与上半部分不匹配,破坏了沉浸感。

“Phoenix-3是一个全脸表情模型,还具有情感控制功能,这是第一个无需大量数据就能做到这一点的模型,”拉扎说。

最重要的是,Phoenix-3的高保真度和面部肌肉控制的表现意味着它可以准确地模拟“微表情”。这些是短暂的、不自主的面部表情,情感反应的结果。通过添加这一功能,该模型创造了一个生动的视频模型体验,比简单的动画面孔更具情感和表现力。

为了使Phoenix-3能够像人类一样响应,Raven-0赋予AI观察和解释场景中发生的事情的能力。它不是拍摄单个快照,而是持续观察并理解视频事件的上下文。这包括识别用户面部的情绪并检测他们环境的变化

例如,AI导师可以通过监控学生的表情来识别他们何时显得困惑或沮丧,并相应调整其解释。同样,支持助理可以观察客户使用产品时的表现,并提供指导如何解决任何问题。

Sparrow-0试图处理许多AI常犯的错误,拉扎说。自然对话有一个流动性,参与者之间有一个你来我往的过程,一个人等待另一个人停止说话然后插话。

然而,AI有时会过快插话——有时正好在另一个人说话时。这种突然性发生是因为AI模型比人类思考得更快,而AI模型开发者非常努力地减少延迟,即AI模型响应所需的时间。但如果AI响应过快,会显得不自然。

Sparrow模型努力使对话感觉自然,通过理解语音的节奏来知道何时暂停、何时说话和何时倾听。它不会对“呃”这样的填充词做出反应,也不会等待长时间的沉默——相反,它会根据语气、节奏和上下文进行调整。

“如果它非常确定你在进行快速友好的对话,它会快速响应”拉扎解释道。“但是,如果你说,‘嘿,让我想想,’AI会给你空间。因此,这使得对话更加自然。”

与其他将技术拼凑在一起的公司不同,拉扎说,Tavus开发了一个集成系统,将这些模型整合在一起。结果是一个高度沉浸的体验,感觉更像是在与另一个人交谈,而不像其他人类化身AI系统那样不自然。

拉扎说,模型能力还有很长的路要走,这意味着要不断提高AI感知和理解人类的能力。

“今天它还不完美,但它是同类中最好的”拉扎补充道。“然而,在未来,我们的目标是拥有一个如此深刻理解人类的模型,以至于除非你问它,否则你不会知道它是一个模型。”

文章来源:https://siliconangle.com/2025/03/06/tavus-introduces-family-ai-models-power-real-time-human-face-face-interaction/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消