Meta发布了一种新的语音转文本模型SeamlessM4T

2023年08月23日由 daydream 发表 613 0

Meta宣布推出了名为SeamlessM4T的多语言基础模型，该模型可以实时理解近100种语言的语音或文本，并生成相应的翻译结果。

微信截图_20230823112240

SeamlessM4T是一种多模态技术，已公开发布，旨在帮助研究人员在此基础上构建和推出能够实现语音到语音、语音到文本、文本到语音、文本到文本翻译的通用应用。同时，SeamlessAlign也与之一同发布，这是一个包含了26.5万小时的语音和文本对齐的多模态翻译数据集。

此次推出的产品在语言学中标志着人工智能应用的重大发展，因为它是一个单一系统在语音和文本领域执行多项任务。在此之前，这方面的方法大多为不同任务而使用不同的系统，比如专门用于语音到语音翻译的系统。

SeamlessM4T能够做什么呢？

Meta解释说，SeamlessM4T能够不需要单独的语言识别模型，就可以隐式地识别源语言。它可以检测到将近100种语言的语音和文本，并生成近100种语言的文本以及36种语言的语音。更有趣的是，它还能够判断一个句子中是否混合了多种语言，并提供单一目标语言的翻译（比如将泰卢固语和印地语混合的句子翻译成英语语音）。

在BLASER 2.0测试中，该模型在噪声和发言者变化方面表现出色，与语音到文本任务的当前最先进模型相比，平均改进了37%和48%。

Meta在一篇博文中表示：“SeamlessM4T优于以往最先进的竞争对手。我们还明显提高了中低资源语言（数字占用空间较小）的性能，并在高资源语言（比如英语）上表现出强劲的性能。"

一旦发展起来，这将导致大规模的通用翻译系统，使说不同语言的人们能够更有效地交流。

值得注意的是，谷歌也在这个方向上进行了努力，并宣布了通用语音模型（USM），它可以对广泛使用和资源不足的语言执行自动语音识别（ASR）。

如何运作？

为了实现这个模型，Meta从公共来源挖掘了数十亿个句子的网络数据和400万小时的语音，并将它们进行对齐，创建了SeamlessAlign数据集。总体而言，该公司表示能够将超过44.3万小时的语音与文本对齐，并创建大约2.9万小时的语音到语音对齐。利用这些数据，该公司训练了多任务UnitY模型，以产生所需的多模态结果。

Meta解释说：“多任务UnitY模型由三个主要的顺序组件组成。文本和语音编码器的任务是识别近100种语言的输入。文本解码器将该含义转化成近100种语言的文本，然后文本到单元模型将其解码为36种语音语言的离散声学单元...然后使用多语言HiFi-GAN单元声码器将解码的离散单元转换为语音。"

尚不完美

然而值得注意的是，目前SeamlessM4T还远未完美。评估发现，该模型存在毒性（尽管比最先进的模型低63%）和性别偏见问题。

根据详细介绍该技术的白皮书，当从中性术语翻译时，SeamlessM4T会过度倾向于男性形式（平均偏好约10%），同时在性别差异约为3%时缺乏稳健性。

Meta表示：“我们在演示结果中检测到输入和输出的毒性。如果只在输出中检测到毒性，那意味着增加了毒性。在这种情况下，我们会提供警告并不显示输出...关于偏见，我们已经开始评估大规模语言中的性别偏见。我们现在能够通过将我们之前设计的多语言HolisticBias数据集扩展到语音，量化数十个语音翻译方向的性别偏见。"

该公司强调，这是一个持续努力的过程，他们将继续在这些领域进行研究并采取行动，以进一步提高SeamlessM4T模型的稳健性和安全性。

文章来源：https://venturebeat.com/ai/meet-seamlessm4t-the-meta-ai-model-that-can-translate-100-languages-into-speech-or-text/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI宣布允许企业对GPT-3.5Turbo进行微调并预告GPT-4的发布

下一篇 AI语音合成平台ElevenLabs正式版推出，支持 30 种语言

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来