Claude聊天机器人的背后公司——人工智能公司Anthropic正在启动一项新计划,以加强其人工智能安全措施。这家人工智能研究实验室正在扩大其漏洞悬赏计划,为识别其即将推出的安全系统中的通用越狱漏洞提供高达15,000美元的奖励。
该计划旨在揭露可能持续绕过一系列高风险领域(包括化学、生物、辐射、核能和网络安全领域)中人工智能安全护栏的漏洞。此举是Anthropic努力加强其人工智能模型防御、防止潜在滥用的举措之一。
Anthropic全球事务负责人Mike Sellitto强调了保障人工智能系统安全的复杂性。“攻击面在某种程度上是无限的。如果没有保障措施,你可以将任何东西作为输入放入模型中,而模型也可以基本上生成任何输出。”这凸显了新计划的重要性,该计划的重点是可重复且广泛存在的漏洞,而非孤立事件。通用越狱漏洞尤其令人担忧,因为它们可能破坏多个场景中的人工智能安全措施,从而导致人工智能技术的严重和危险滥用。
扩大的漏洞悬赏计划最初将与HackerOne合作,以邀请制方式运行(但公司计划在未来让更多人参与)。参与者将能够提前访问并测试Anthropic最新的安全缓解系统,该系统尚未公开发布。
Anthropic的这项举措与其他人工智能公司共同致力于开发负责任的人工智能的承诺相一致,包括白宫宣布的自愿人工智能承诺和七国集团制定的开发先进人工智能系统组织行为准则。
有经验的人工智能安全研究人员以及擅长识别语言模型越狱漏洞的人员可以在8月16日之前通过Anthropic的申请表申请邀请函。该公司计划在秋季通知被选中的申请人,并计划在未来更广泛地扩展该计划。
随着人工智能能力的持续快速发展,Anthropic扩大的漏洞悬赏计划代表了一项重要努力,以确保安全措施能够与技术进步保持同步。