Meta的新语音框人工智能引发了关于生成语音的争论
2023年06月25日 由 Susan 发表
163849
0
伴随着争议声的Meta以其最新创新同样引起了关注。Voicebox是一款由人工智能驱动的语音生成器,它可以根据文本输入创建和编辑听起来像真人说话的音频。据Meta自己称,这个程序非常强大,超过了竞争对手的模型表现。
Meta在上周发布的文章中首次公布了Voicebox。虽然这个程序有多个功能,但其核心能力是生成语音,类似于ChatGPT生成文本。这种超逼真的合成语音可以用来创建“内容”(实际上就是互联网上的任何东西,比如YouTube视频、有声书或音乐)。视力受限的用户最终也可以使用Voicebox来采样某人的声音并生成文本转语音片段。这样,用户的设备就可以用发送者的声音朗读信息,为与朋友和家人之间的沟通创造更亲密的体验。虽然Voicebox目前尚未对公众使用,但有兴趣的人可以在Meta的网站上尝试一些演示。
Meta的研究论文显示,该公司将Voicebox训练了60,000小时的英语有声书,然后又进行了50,000小时覆盖其他五种语言(法语、德语、西班牙语、波兰语和葡萄牙语)的有声书训练。在比较测试中,Voicebox的音频样本生成速度比微软的神经编解码语言模型VALL-E快了20倍。Voicebox的平均词错误率也只有另一个多语言程序YourTTS的一半。
Voicebox让人想起亚马逊去年夏天推出的一项技术,该技术可以让Alexa使用已故人士的声音生成语音。该工具据说旨在提供安慰,正如亚马逊2022年发布的一段视频中的场景:一个孩子听他已经去世的祖母“朗读”的故事。但对于一些人来说,这些技术带来的不是安慰,而是令人不安的奇怪的感觉。当涉及模仿某人的声音(无论他们是否已故)时,存在着许多伦理问题,包括同意问题或误导(如深度伪造)。
Meta声称Voicebox的影响将是积极的,这要归功于它对可访问性的影响。虽然这可能是真的,但科技公司倾向于用模糊的可访问性主张来捍卫有争议的人工智能程序,在长远看可能会带来危险。一些残障艺术家公开反对人工智能艺术生成器支持者的观点,认为像DALL-E这样的程序对可访问性是一种胜利;毕竟,残障艺术家几个世纪以来一直在寻找追求自己的艺术方式,并且很少有人希望成为生成式人工智能迅速增长的棋子。尽管确切的情况还为时尚早,但对Voicebox等程序也可能会有类似的情况。
来源:https://www.extremetech.com/computing/metas-new-voicebox-ai-sparks-debate-over-generative-speech