Tavus推出AI模型家族以支持实时人脸互动

2025年03月07日由佚名发表 261 0

Tavus公司是一家专注于开发能够模拟与他人交谈体验的实时AI技术模型的人工智能研究初创公司，今天宣布推出一系列突破性的AI模型。

公司表示正在构建他们称之为人机交互操作系统，名为“对话视频界面”，这将使AI能够自然地感知、解释和回应，就像在Zoom或FaceTime通话中与另一个人交谈一样。Tavus的使命是让AI理解面部表情、语气和肢体语言并解释其含义，同时也能通过自身的表情和语气做出足够的响应以传达意义。

“人类在进化上是为了面对面交流而设计的。所以，我们想教会机器如何能够做到这一点”首席执行官哈桑·拉扎在接受SiliconANGLE采访时表示。“如果我们相信科幻未来中有AI同事、朋友和助手，我们需要构建实现这一目标的界面。”

今天发布的产品包括三个模型：Phoenix-3，第一个能够传达细微表情的全脸AI渲染模型；Raven-0，一个突破性的AI感知模型，能够像人类一样观察和推理；以及Sparrow-0，一个最先进的轮流对话模型，为对话增添了“生命的火花”。

Phoenix-3是公司的旗舰基础模型，旨在创建“数字双胞胎”，即高度逼真的个人表现，并配备了AI驱动的人类表情能力，正如拉扎所解释的那样。现在是其第三次迭代，提供全脸动画，能够克隆人并准确表现每一块面部肌肉，这对于模仿细微表情至关重要。他说，大多数商业面部动画模型无法处理全脸，结果是下半部分与上半部分不匹配，破坏了沉浸感。

“Phoenix-3是一个全脸表情模型，还具有情感控制功能，这是第一个无需大量数据就能做到这一点的模型，”拉扎说。

最重要的是，Phoenix-3的高保真度和面部肌肉控制的表现意味着它可以准确地模拟“微表情”。这些是短暂的、不自主的面部表情，是情感反应的结果。通过添加这一功能，该模型创造了一个生动的视频模型体验，比简单的动画面孔更具情感和表现力。

为了使Phoenix-3能够像人类一样响应，Raven-0赋予AI观察和解释场景中发生的事情的能力。它不是拍摄单个快照，而是持续观察并理解视频事件的上下文。这包括识别用户面部的情绪并检测他们环境的变化。

例如，AI导师可以通过监控学生的表情来识别他们何时显得困惑或沮丧，并相应调整其解释。同样，支持助理可以观察客户使用产品时的表现，并提供指导如何解决任何问题。

Sparrow-0试图处理许多AI常犯的错误，拉扎说。自然对话有一个流动性，参与者之间有一个你来我往的过程，一个人等待另一个人停止说话然后插话。

然而，AI有时会过快插话——有时正好在另一个人说话时。这种突然性发生是因为AI模型比人类思考得更快，而AI模型开发者非常努力地减少延迟，即AI模型响应所需的时间。但如果AI响应过快，会显得不自然。

Sparrow模型努力使对话感觉自然，通过理解语音的节奏来知道何时暂停、何时说话和何时倾听。它不会对“呃”这样的填充词做出反应，也不会等待长时间的沉默——相反，它会根据语气、节奏和上下文进行调整。

“如果它非常确定你在进行快速友好的对话，它会快速响应”拉扎解释道。“但是，如果你说，‘嘿，让我想想，’AI会给你空间。因此，这使得对话更加自然。”

与其他将技术拼凑在一起的公司不同，拉扎说，Tavus开发了一个集成系统，将这些模型整合在一起。结果是一个高度沉浸的体验，感觉更像是在与另一个人交谈，而不像其他人类化身AI系统那样不自然。

拉扎说，模型能力还有很长的路要走，这意味着要不断提高AI感知和理解人类的能力。

“今天它还不完美，但它是同类中最好的”拉扎补充道。“然而，在未来，我们的目标是拥有一个如此深刻理解人类的模型，以至于除非你问它，否则你不会知道它是一个模型。”

文章来源：https://siliconangle.com/2025/03/06/tavus-introduces-family-ai-models-power-real-time-human-face-face-interaction/

标签：

Tavus AI模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Mistral OCR API：解锁90%非结构化数据，提升文档理解能力

下一篇阿里巴巴股价因新开源QwQ-32B推理模型上涨

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来