语音克隆公司Resemble AI已经发布了其深度伪造检测模型的升级版Detect-2B,准确率高达约94%。
Detect-2B采用了一系列预训练的子模型和微调技术,专门用于检查音频片段,判断其是否为AI生成。
“在我们原有Detect模型的基础上,Detect-2B在模型架构、训练数据和整体性能上取得了显著进步。该模型在大量真实和伪造音频片段的数据集上进行了评估,展现出了令人瞩目的性能。”Resemble在官方博客文章中表示。
据Resemble介绍,Detect-2B的子模型由带有关键层插入适配模块的冻结音频表示模型组成。这些适配模块专注于识别真实音频与伪造音频的细微差别——即录音中不经意留下的声音痕迹。大多数AI生成的音频片段听起来都“过于完美”。Detect-2B能够预测音频中AI制作的成分,而且无需每次听到新片段时都重新训练模型。这些子模型也经过了大型数据集的充分训练。
Detect-2B会汇总其预测分数,并与“精心调整的阈值”进行比较,从而判断录音的真实性。Resemble表示,他们通过独特的设计使得Detect-2B训练速度快,且部署时无需大量计算能力。
随机架构使音频信号处理更为灵活
该模型的架构基于Mamba-SSM或状态空间模型,它并不依赖静态数据或重复模式。相反,它采用随机或随机概率模型,对不同变量具有更好的响应能力。Resemble表示,这种架构非常适合音频检测,因为它能够捕捉音频片段中的不同动态,适应音频信号状态之间的变化,即使在录音质量较差的情况下也能正常工作。
为了评估Detect-2B的性能,Resemble让它通过了一个包含未见过的发言人、深度伪造音频和多种语言的测试集。该公司表示,该模型以至少93%的准确率正确检测了六种不同语言的深度伪造音频。
Resemble在4月推出了其AI语音平台Rapid Voice Cloning。Detect-2B将通过API提供,并可以集成到不同的应用程序中。
识别深度伪造变得尤为重要
随着2024年美国总统选举的临近,识别AI生成的声音或视频变得日益重要。AI声音可能会加剧误导选民和传播错误信息的风险。无论是伪造政客的声音、冒充歌曲中的名人,还是仅仅使用AI来陈述某些事情,对AI深度伪造的担忧已经削弱了公众对品牌的信任。
像Detect-2B这样的工具可以在这些深度伪造内容进入公众视野之前,在很大程度上帮助识别和证明其伪造性。当然,Resemble并不是唯一一家致力于检测AI克隆的公司。例如,McAfee在1月推出了Project Mockingbird项目来检测AI音频。而Meta则正在开发一种在AI生成的音频中添加水印的方法。
“但我们的工作还远未结束。随着生成性AI能力的不断增强,我们的检测能力也必须同步提升。我们已经规划了几个激动人心的研究方向,以进一步优化Detect-2B,重点关注表征学习、先进的模型架构和数据扩展等领域。”Resemble表示。