人类无法准确识别Deepfake语音样本
2023年08月03日 由 Samoyed 发表
19674
0
伦敦大学学院的一项新研究发现,人类只能在73%的情况下识别出人工生成的语音,英语和普通话的准确率相同。
这项发表在PLOS ONE上的研究首次评估了人类检测英语以外语言的人工生成语音的能力。
Deepfake是一种可以模仿真人的声音或外表合成媒体。它们属于生成式人工智能的范畴,生成式人工智能是机器学习的一种,通过训练算法来学习数据集(如真人的视频或音频)的模式和特征,来重现原来的声音或图像。
虽然早期的Deepfake算法可能需要数千个人的声音样本才能生成原始音频,但最新的预训练算法只需使用一个人说话的三秒钟片段就可以重建一个人的声音。开源算法可以免费获得,虽然需要一定的专业知识,但个人在几天内就可以完成训练。
苹果公司最近发布了一款适用于iPhone和iPad的软件,用户可以通过15分钟的录音来创建自己的声音副本。
伦敦大学学院的研究人员使用了一种文本到语音(TTS)算法,该算法在两个公开可用的数据集(一个是英语,一个是普通话)上进行了训练,以每种语言生成50个Deepfake语音样本。这些样本不同于用于训练算法的样本,以避免算法复制原始输入的可能性。
529名参与者播放了这些人工生成的样本和真实的样本,看看他们是否能从虚假的演讲中分辨出真实的东西。参与者只能识别出73%的虚假语音,在接受了识别深度虚假语音方面的训练后,这一比例仅略有提高。
该研究的第一作者Kimberly Mai说:“我们的研究结果证实,人类无法可靠地检测深度虚假语音,无论他们是否接受过帮助他们识别人工内容的培训。同样值得注意的是,我们在这项研究中使用的样本是用相对较旧的算法创建的,这就提出了一个问题,即人类是否更加难以判断使用现在和未来最复杂的技术创建的深度虚假语音。”
研究人员的下一步工作是开发更好的自动语音检测器,提高检测能力,以对抗人工生成的音频和图像的威胁。
虽然生成式人工智能音频技术有好处,例如为那些可能有语言限制或可能因疾病而失声的人提供便利,但人们越来越担心这种技术可能被犯罪分子利用,对个人和社会造成重大伤害。
记录在案的罪犯使用Deepfake语音的案例包括2019年发生的一起事件:一家英国能源公司的首席执行官被Deepfake生成的老板声音录音说服,将数十万英镑转给了一家虚假供应商。
该研究的负责人Lewis Griffin教授说:“随着生成式人工智能技术变得越来越复杂,其中许多工具都是公开可用的,这带来了许多好处和风险。”
来源:https://techxplore.com/news/2023-08-humans-unable-quarter-deepfake-speech.html