Voicebox:可以复制你的朋友和亲人的声音的人工智能
2023年06月20日 由 Samoyed 发表
527478
0
这项技术突破是通过一篇已发表的论文宣布的。虽然它还没有被广泛使用,但你可以听一下演示。
随着人工智能聊天机器人和艺术生成器越来越受欢迎,这个行业最杰出的一部分参与者正在努力用自己的工具将自己留在游戏中。Meta刚刚推出了Voicebox,这是一款文本引导的人工智能语音生成器,功能强大,该公司声称其性能优于所有现有同类型产品。
Voicebox足够强大,可以像ChatGPT生成文本和Bing或Dall-E 2创建图像一样轻松地生成语音。虽然Voicebox尚未广泛供公众使用,但Meta公司已经向任何有兴趣了解Voicebox的人提供了演示。
例如,该系统可用于内容创作者的音频编辑,它的语音生成可以使音频片段听起来更加自然。并且它的功能足够全面,可以智能地编辑语音片段中的噪音,如狗叫声,并重新生成声音。
Voicebox的能力之一是,它可以匹配样本的音频风格,并生成文本到语音的片段。从本质上讲,视障用户可以给Voicebox一个短至两秒的朋友的音频片段,它就能用这个朋友的声音读出他的书面信息。
新的生成式人工智能工具可以通过语境学习来解决任务,因此它可以处理以前从未见过的文本,并正确生成语境和语气,就像一个人通过使用现有知识来学习和解决新问题一样。
这一开创性工具的道德和法律影响是不容忽视的。任何人都可以在未经许可的情况下使用一个人的声音录音生成音频剪辑,并让他们说任何话。
在发表的论文中,Meta公司声称,一个二元分类模型可以区分真实世界的语音和Voicebox生成的语音。无论怎样,由于该系统没有公开,Meta公司的话还没有被证实。
Meta公司对Voicebox进行了6万小时的英语有声读物和5万小时的六种语言的多语种有声读物的训练,以获得最佳性能。其训练使其能够无需额外训练进行语音去噪、样式化、编辑以及生成多样化的语音样本。
在Meta AI发表的一篇论文中,声称它可以比微软的VALL-E快20倍,并且更易于理解。
除了比竞争对手更快、犯的错误更少之外,Meta 声称 Voicebox 可以将书面文本转换为一种或多种语言的口语,而无需单独针对每种语言进行专门培训。
与之前最先进的模型YourTTS相比,Voicebox将平均单词错误率从10.9%降低到5.2%,并将音频相似度从0.335提高到0.481。
来源:https://www.zdnet.com/article/meta-unveils-voicebox-ai-to-replicate-the-voices-of-your-friends-and-loved-ones/