谷歌推出数据集,旨在识别AI伪造的语音
2019年02月01日 由 浅浅 发表
161379
0
当谷歌在2018年3月宣布推出谷歌新闻计划时,它承诺发布有助于推进最先进研究的数据集,用于检测AI伪造的数字音频检测,AI生成的音频会误导或欺骗语音验证系统。现在,它兑现了这一承诺。
谷歌新闻团队和谷歌的AI研究部门Gai prinoogle AI合作制作了一个语音语料库,其中包含公司的文本语音转换模型所使用的数千个短语。从英文报纸文章中提取的短语由68种不同的合成声音组成,涵盖了各种地区口音。
当收听汽车中的谷歌地图驾驶路线,从谷歌主页获取答案,或在谷歌翻译中听到口语翻译时,你在使用谷歌的语音合成或文字转语音(TTS)技术。语音界面不仅允许你自然而方便地与数字设备进行交互,它们是使信息普遍可访问的关键技术,但是这一技术是把双刃剑。
谷歌AI的软件工程师Daisy Stanton表示,“在过去几年中,使用神经网络模拟人类声音的新研究爆炸式增长。这些模型,包括谷歌开发的许多模型,可以产生越来越逼真的,类似人类的语音,虽然进展令人兴奋,但我们非常清楚这项技术如果用于违法活动会带来的风险。这就是我们采取行动的原因。”
该数据集可供ASVspoof 2019的所有参与者使用,该竞赛旨在促进针对欺骗性语音的检测和对策的开发,特别是可以区分真实和计算机生成的语音的系统。、
通过真实和计算机生成的语音模型进行训练,ASVspoof参与者可以开发学习区分两者的系统。结果将于9月在奥地利格拉茨举行的2019年Interspeech会议上公布。
Stanton说,“正如我们去年在AI原则中发表的那样,我们认真负责与外部研究团体合作,并采取强有力的安全措施,以避免造成风险和意外的结果,我们还坚定地致力于谷歌新闻计划的章程,以帮助新闻业在数字时代茁壮成长,我们对ASVspoof挑战的支持是这一过程中的重要一步。”
最近,可用于产生误导性媒体的AI系统受到越来越多的审查。恶意行为者可能会合成语音以试图欺骗语音身份验证系统,或者他们可能会创建伪造的录音来诽谤公众人物。也许同样令人担忧的是,deep fake可以被媒体操纵,因为区分真实内容和篡改内容变得更加困难。
幸运的是,研究者们正在与它们进行斗争。去年夏天,DARPA媒体取证计划的成员测试了一个原型系统,该系统可以自动检测deep fake或被篡改的图像或视频,部分是通过寻找视频中不自然的眨眼等提示。创业公司Truepic,在7月筹集了800万美元的资金,正在尝试将deep fake检测作为一项服务。