美国知名杂志《连线》报道称:“人工智能造成的最大损失就是,你将对你所看到或听到的任何事物都完全丧失信任。”这可能是我在主流文章中读过的最深奥的句子之一。
几乎所有控制我们世界、公司、学术界和政府的实体都在“疯狂地”通过分析和理解人类的声音来复制它。现在正在进行一场解码人类声音的竞赛。
想象这样一个世界,一个人的声音并不能证明是他本人在说话:你听到家庭成员在房子的另一端说话,所以认为他们在那里,但不是这样。这是机器人在模仿他们的声音,他们在别的地方。
美国、中国和爱沙尼亚等国家已经进入了这个领域,而Facebook、谷歌、苹果和亚马逊等公司,正试图完全模仿个人的声音。
创建人工语音不是很困难,并且它可以吸收和复制单词和短语,就像我们的智能手机(像Siri)一样。《连线》称:
制造一个自然的声音涉及的算法非常复杂,计算起来成本也非常高。但是现在这种技术是可行的。
正如语言病理学家证明的那样,人类的声音远不止是声带振动。这些振动是空气离开我们的肺,并迫使我们打开声带而产生的,这一过程产生的音调就像指纹一样独特,声音的独特性是因为成千上万的波形同时出现,而且是齐声的。但它也与我们很少考虑的特性有关,比如语调、音调和步调。
基本上如果一个政府或机构的资金,可以支持研究人员完成把人类的声音(语调、音调和步调)变成单一因素的艰巨任务,然后他们可以开发这种技术模仿一个人的声音,因为它根据每个声音的不同来复制特性。
由Adobe开发的一个被称为“Photoshop of soundwaves”的软件:它是Project Voco。
它的工作原理是用像素代替波形,在声音记录和模仿人声之间建立起一座桥梁,让声音听起来自然。
Adobe认为,如果一个人的演讲能够被记录下来,就可以简单地将人工语音剪切并粘贴到录音中。
《连线》杂志上的另一篇文章:
到2018年,不法分子可能很容易就能创造出足够好的声音模仿来迷惑、激怒或动员公众。世界各地的大多数公民都无法区分出特朗普或普京的一小段演讲的真假。
当你考虑到人们对媒体、机构和专家的普遍不信任时,就可以知道音频造假可能不仅仅是信任丧失,还可能引发战争。想象一下,一名世界领导人被伪造了好战言论的声音,并且还有修改过的视频。在2018年,公民或军方将领能确定它的真假吗?