AI初创公司aiOla推出了一款名为Whisper-NER的新模型,旨在解决企业使用人工智能转录音频时可能遇到的隐私保护问题。此模型基于OpenAI的开源模型Whisper构建,并实现了自动语音识别(ASR)与命名实体识别(NER)的结合。Whisper-NER能够在转录过程中自动识别并屏蔽诸如姓名、电话号码和地址等敏感信息,从而在处理语音内容的同时确保隐私和遵守数据保护规定。
这款新模型现以完全开源的形式发布,在Hugging Face和GitHub上提供给企业、组织和个人使用、修改及部署。用户可以在Hugging Face上尝试演示模型,体验记录语音片段并在最终的文字转录中自动屏蔽指定词汇的功能。测试显示,该模型能够有效屏蔽特定词汇,例如专有名词和术语。
aiOla的研究副总裁Gill Hetz表示,开发这一开源工具的目的在于推进AI领域的隐私保护。通过减少额外软件步骤的需求,Whisper-NER帮助用户在无需增加复杂度的情况下实现敏感数据的屏蔽。与传统多阶段系统相比,该模型消除了中间处理阶段的数据暴露风险,从而降低数据泄露的可能性。
Whisper-NER采用MIT许可协议公开源代码,支持社区和商业用途的自由采用与修改。该模型可通过GitHub和Hugging Face获取,其高级功能广泛可用。此外,还提供了演示版本,便于用户探索其功能和适应性。
在训练方法上,Whisper-NER利用合成语音和基于文本的NER数据集进行训练,能够同时执行转录和实体识别任务,提高了准确性。模型设计为可以进行零样本学习,这意味着即使是在训练中未明确包含的实体类型,模型也能识别并屏蔽。
对于不需要屏蔽的应用场景,Whisper-NER还可以配置为仅标记敏感实体,为组织提供了根据自身需求定制的选项。Hetz指出,高度监管的行业如医疗保健和法律将从这种注重隐私的方法中获益最多,但即使是敏感数据较少的公司也可以利用这项技术。