初创公司Camb AI,一家专注于AI驱动的内容本地化技术的公司,最近宣布推出了Mars5,这是一款强大的AI语音克隆模型。
尽管市面上已经存在多款可以创建数字语音副本的模型,如ElevenLabs等公司,但Camb AI声称其Mars5在逼真度方面有着显著的优势。
根据该公司提供的早期样本,Mars5不仅能精准模仿原始声音,还能复制复杂的韵律参数,包括节奏、情感和语调。这种细致入微的模仿能力,让Mars5在语音克隆领域迈出了重要的一步。
Camb AI支持的语言数量更是达到了惊人的140多种,几乎是ElevenLabs的三倍。不过,目前这款开源技术仅在GitHub上提供了英文特定版本,而具有更多语言支持的版本则可在该公司的付费版Studio上使用。
“Mars5在捕捉韵律和逼真度方面的能力,即使只有短短几秒钟的输入,也是前所未有的。这无疑是语音领域的一个里程碑。”Camb AI的联合创始人兼首席技术官Akshat Prakash在一份声明中如此评价。
Mars5将语音克隆和文本到语音转换两种技术巧妙地结合在了一个平台上。用户只需上传一个音频文件(长度可从几秒钟到一分钟不等),并提供文本内容。然后,该模型就能以音频文件中的说话者声音为参考,捕捉包括声音、说话风格、情感、发音和意义在内的相关细节,进而将提供的文本转化为逼真的语音。
Camb AI声称,Mars5能够捕捉到各种情感音调和语调,适用于各种复杂的语音场景,如体育解说、电影和动画等。为了实现这种高水平的韵律模仿,Mars5采用了结合自回归模型(约7.5亿参数)和非自回归多项式扩散模型(约4.5亿参数)的先进技术。
虽然具体的基准统计数据尚未公布,但通过早期样本和测试发现,Mars5在大多数情况下都比流行的开源和闭源语音合成模型表现更好,包括Metavoice和ElevenLabs的模型。竞争对手的产品虽然也能合成语音,但听起来并不如Mars5接近原始声音。
随着Mars5的语音克隆和文本到语音性能不断提升,Camb AI还计划开源发布另一个名为Boli的模型。Boli专注于实现具有上下文理解的翻译,能够纠正语法并提供适当的口语化表达。
目前,Mars5和Boli都在Camb AI的专有平台Camb Studio上运行,支持140多种语言。该公司还向企业、中小企业和开发人员提供这些功能作为API。尽管Prakash没有透露具体的客户数量,但他确实表示,Camb AI正在与美国职业足球大联盟(Major League Soccer)、澳大利亚网球公开赛(Tennis Australia)以及其他领先的电影、音乐制作公司和政府机构合作。
其中,Camb AI为美国职业足球大联盟成功地将一场比赛实时配音成四种语言,持续了两个多小时且没有中断。此外,他们还将澳大利亚网球公开赛赛后的新闻发布会翻译成多种语言,并将阿拉伯语的心理惊悚片《Three》翻译成普通话。这些成功案例充分展示了Camb AI在语音克隆和本地化技术方面的实力。