Resemble AI升级检测模型：Detect-2B精准识别伪造音频

2024年07月01日由 daydream 发表 814 0

语音克隆公司Resemble AI已经发布了其深度伪造检测模型的升级版Detect-2B，准确率高达约94%。

微信截图_20240701102137

Detect-2B采用了一系列预训练的子模型和微调技术，专门用于检查音频片段，判断其是否为AI生成。

“在我们原有Detect模型的基础上，Detect-2B在模型架构、训练数据和整体性能上取得了显著进步。该模型在大量真实和伪造音频片段的数据集上进行了评估，展现出了令人瞩目的性能。”Resemble在官方博客文章中表示。

据Resemble介绍，Detect-2B的子模型由带有关键层插入适配模块的冻结音频表示模型组成。这些适配模块专注于识别真实音频与伪造音频的细微差别——即录音中不经意留下的声音痕迹。大多数AI生成的音频片段听起来都“过于完美”。Detect-2B能够预测音频中AI制作的成分，而且无需每次听到新片段时都重新训练模型。这些子模型也经过了大型数据集的充分训练。

Detect-2B会汇总其预测分数，并与“精心调整的阈值”进行比较，从而判断录音的真实性。Resemble表示，他们通过独特的设计使得Detect-2B训练速度快，且部署时无需大量计算能力。

随机架构使音频信号处理更为灵活

该模型的架构基于Mamba-SSM或状态空间模型，它并不依赖静态数据或重复模式。相反，它采用随机或随机概率模型，对不同变量具有更好的响应能力。Resemble表示，这种架构非常适合音频检测，因为它能够捕捉音频片段中的不同动态，适应音频信号状态之间的变化，即使在录音质量较差的情况下也能正常工作。

为了评估Detect-2B的性能，Resemble让它通过了一个包含未见过的发言人、深度伪造音频和多种语言的测试集。该公司表示，该模型以至少93%的准确率正确检测了六种不同语言的深度伪造音频。

微信截图_20240701102203

Resemble在4月推出了其AI语音平台Rapid Voice Cloning。Detect-2B将通过API提供，并可以集成到不同的应用程序中。

识别深度伪造变得尤为重要

随着2024年美国总统选举的临近，识别AI生成的声音或视频变得日益重要。AI声音可能会加剧误导选民和传播错误信息的风险。无论是伪造政客的声音、冒充歌曲中的名人，还是仅仅使用AI来陈述某些事情，对AI深度伪造的担忧已经削弱了公众对品牌的信任。

像Detect-2B这样的工具可以在这些深度伪造内容进入公众视野之前，在很大程度上帮助识别和证明其伪造性。当然，Resemble并不是唯一一家致力于检测AI克隆的公司。例如，McAfee在1月推出了Project Mockingbird项目来检测AI音频。而Meta则正在开发一种在AI生成的音频中添加水印的方法。

“但我们的工作还远未结束。随着生成性AI能力的不断增强，我们的检测能力也必须同步提升。我们已经规划了几个激动人心的研究方向，以进一步优化Detect-2B，重点关注表征学习、先进的模型架构和数据扩展等领域。”Resemble表示。

文章来源：https://venturebeat.com/ai/resemble-ais-next-generation-ai-audio-detection-model-detect-2b-is-94-accurate/

标签：

Resemble AI 模型音频

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 ElevenLabs推出文本转语音阅读器应用

下一篇人工智能复活已故演员的声音

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来