近日,微软公司AI红队发布了一份新的白皮书,深入分析了生成式人工智能系统所带来的安全挑战,并提出了针对这些新兴风险的应对策略。
该红队自2018年成立以来,一直致力于应对不断演变的AI安全与风险环境。其工作重点是通过结合传统安全实践与负责任的AI努力,来识别和缓解潜在漏洞。
这份名为《100款生成式AI产品红队测试经验总结》的白皮书指出,生成式AI在引入新的漏洞的同时,也放大了现有的安全风险,因此需要采取多方面的措施来减轻这些风险。白皮书强调了人类专业知识、持续测试以及合作在应对从传统网络安全缺陷到新型AI特定威胁等各种挑战中的重要性。
报告总结了三个主要发现。首先,生成式AI系统不仅放大了现有的安全风险,还引入了新的风险。研究发现,生成式AI模型在放大现有漏洞的同时,还引入了新的网络攻击途径,如提示注入等模型层面的弱点,给AI系统带来了独特的挑战。
在一个案例研究中,红队发现一款视频处理AI应用中的过时FFmpeg组件允许服务器端请求伪造攻击,这显示了传统问题在AI驱动解决方案中的持续存在。报告指出,AI红队应关注新的网络攻击途径,同时保持对现有安全风险的警惕,并强调AI安全最佳实践应包括基本的网络安全卫生。
其次,人类在改进和保障AI安全方面处于核心地位。尽管自动化工具在创建提示、组织网络攻击和评估响应方面很有用,但红队测试不能完全自动化,AI红队测试在很大程度上依赖于人类专业知识。白皮书认为,在医学、网络安全以及化学、生物、放射和核等领域,自动化往往力不从心,而主题专家在这些领域的内容评估中发挥着至关重要的作用。虽然语言模型能够识别仇恨言论或色情内容等通用风险,但在评估细微的特定领域问题时却力不从心,因此人类监督在确保全面风险评估方面至关重要。
此外,训练时主要依赖英文数据的AI模型往往无法捕捉不同语言或文化环境中的风险和敏感性。同样,在探测心理社会危害(如聊天机器人与处于困境中的用户的互动)时,也需要人类判断来理解这些互动的更广泛含义和潜在影响。
最后,深度防御是确保AI系统安全的关键。报告指出,减轻生成式AI的风险需要采取分层方法,结合持续测试、强大防御和自适应策略。虽然缓解措施可以减少漏洞,但无法完全消除风险,因此持续的红队测试在加强AI系统方面发挥着至关重要的作用。微软研究人员表示,通过反复识别和应对漏洞,组织可以增加攻击成本,从而威慑对手并提高AI系统的整体安全态势。