OpenAI发布两篇重要论文,详述测试AI模型安全风险的新方法,旨在应对日益增长的AI系统漏洞担忧。这些研究标志着顶尖AI实验室在评估与改进模型安全措施方面的重要进展。
论文聚焦于“红队测试”的两种互补方法,即通过压力测试AI系统以发现潜在风险和漏洞。其中一篇论文概述了OpenAI与外部专家合作评估模型的机制,而另一篇则介绍了能够大规模生成多样化测试用例的新型自动化测试技术。
研究者指出,“红队测试”已成为评估AI模型与系统风险的关键手段,随着AI能力迅速提升,企业和监管机构愈发寻求系统性评估AI安全性的方法,这一手段变得愈发重要。
自动化测试研究的一项关键创新在于将测试过程分为两个独立步骤:首先生成多样化的测试目标,然后开发针对性测试以有效实现这些目标。这种方法既保证了检查问题的广度,又确保了每个问题被深入考察的深度。
该自动化系统能够生成既多样又成功的测试用例,用以发现潜在问题,这是以往方法难以同时实现的,以往方法往往擅长其一而非两者兼顾。
研究者通过两个关键测试用例展示了其方法:一是检查“提示注入”漏洞,即AI可能因精心设计的输入而被欺骗;二是测试模型保持适当行为并避免生成有害内容的能力。
据论文所述,OpenAI已在从DALL-E 2到最近的o1模型家族等重大模型发布中应用了这些技术,有助于在模型面向用户之前识别和解决多种风险。
研究者指出,尽管没有单一过程能覆盖所有潜在风险,但红队测试,特别是结合来自不同领域的外部专家意见,为积极的风险评估和测试提供了机制。
这些论文的发布正值AI安全研究的关键时期。2023年10月,拜登总统关于AI安全的行政命令特别要求开发红队测试方法,作为推动AI安全措施的一部分。美国国家标准与技术研究院被赋予制定基于类似OpenAI所公布测试方法的指导方针的任务。
然而,研究者也承认重要限制。随着模型演进,红队测试结果可能过时,且该过程本身在发现漏洞时可能产生潜在安全风险。随着AI系统日益复杂,人类测试员需要具备越来越专业化的知识才能正确评估模型输出,这成为日益严峻的挑战。
尽管面临挑战,OpenAI的研究表明,结合人类专业知识与自动化测试工具,可有助于创建更稳健、标准化的AI安全评估方法,这是随着AI系统能力增强和广泛应用而至关重要的目标。