Meta发布了一种新的语音转文本模型SeamlessM4T

2023年08月23日 由 daydream 发表 507 0

Meta宣布推出了名为SeamlessM4T的多语言基础模型,该模型可以实时理解近100种语言的语音或文本,并生成相应的翻译结果。


微信截图_20230823112240


SeamlessM4T是一种多模态技术,已公开发布,旨在帮助研究人员在此基础上构建和推出能够实现语音到语音、语音到文本、文本到语音、文本到文本翻译的通用应用。同时,SeamlessAlign也与之一同发布,这是一个包含了26.5万小时的语音和文本对齐的多模态翻译数据集。


此次推出的产品在语言学中标志着人工智能应用的重大发展,因为它是一个单一系统在语音和文本领域执行多项任务。在此之前,这方面的方法大多为不同任务而使用不同的系统,比如专门用于语音到语音翻译的系统。


SeamlessM4T能够做什么呢?


Meta解释说,SeamlessM4T能够不需要单独的语言识别模型,就可以隐式地识别源语言。它可以检测到将近100种语言的语音和文本,并生成近100种语言的文本以及36种语言的语音。更有趣的是,它还能够判断一个句子中是否混合了多种语言,并提供单一目标语言的翻译(比如将泰卢固语和印地语混合的句子翻译成英语语音)。


在BLASER 2.0测试中,该模型在噪声和发言者变化方面表现出色,与语音到文本任务的当前最先进模型相比,平均改进了37%和48%。


Meta在一篇博文中表示:“SeamlessM4T优于以往最先进的竞争对手。我们还明显提高了中低资源语言(数字占用空间较小)的性能,并在高资源语言(比如英语)上表现出强劲的性能。"


一旦发展起来,这将导致大规模的通用翻译系统,使说不同语言的人们能够更有效地交流。


值得注意的是,谷歌也在这个方向上进行了努力,并宣布了通用语音模型(USM),它可以对广泛使用和资源不足的语言执行自动语音识别(ASR)。


如何运作?


为了实现这个模型,Meta从公共来源挖掘了数十亿个句子的网络数据和400万小时的语音,并将它们进行对齐,创建了SeamlessAlign数据集。总体而言,该公司表示能够将超过44.3万小时的语音与文本对齐,并创建大约2.9万小时的语音到语音对齐。利用这些数据,该公司训练了多任务UnitY模型,以产生所需的多模态结果。


Meta解释说:“多任务UnitY模型由三个主要的顺序组件组成。文本和语音编码器的任务是识别近100种语言的输入。文本解码器将该含义转化成近100种语言的文本,然后文本到单元模型将其解码为36种语音语言的离散声学单元...然后使用多语言HiFi-GAN单元声码器将解码的离散单元转换为语音。"


尚不完美


然而值得注意的是,目前SeamlessM4T还远未完美。评估发现,该模型存在毒性(尽管比最先进的模型低63%)和性别偏见问题。


根据详细介绍该技术的白皮书,当从中性术语翻译时,SeamlessM4T会过度倾向于男性形式(平均偏好约10%),同时在性别差异约为3%时缺乏稳健性。


Meta表示:“我们在演示结果中检测到输入和输出的毒性。如果只在输出中检测到毒性,那意味着增加了毒性。在这种情况下,我们会提供警告并不显示输出...关于偏见,我们已经开始评估大规模语言中的性别偏见。我们现在能够通过将我们之前设计的多语言HolisticBias数据集扩展到语音,量化数十个语音翻译方向的性别偏见。"


该公司强调,这是一个持续努力的过程,他们将继续在这些领域进行研究并采取行动,以进一步提高SeamlessM4T模型的稳健性和安全性。

文章来源:https://venturebeat.com/ai/meet-seamlessm4t-the-meta-ai-model-that-can-translate-100-languages-into-speech-or-text/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消