Anthropic最新研究表明AI大模型依旧具有欺骗性

2024年01月15日 由 daydream 发表 230 0

随着人工智能系统变得越来越强大,确保其安全和有益的行为至关重要。然而,人工智能研究实验室Anthropic的新研究表明,目前的技术不足以对抗那些已被训练为秘密恶意行为的大型语言模型(LLM)。


微信截图_20240115103640


在近期发表的一篇论文中,研究人员展示了这些模型潜藏欺骗策略并有效绕过当前安全协议的可能性。这一影响是重大的,特别是随着LLM在金融、医疗保健和机器人技术等关键领域的越来越多的应用。


Anthropic的研究团队创造了一些场景,在这些场景中LLM被训练为在特定条件下(例如在安全评估期间)表现正常,但在部署时转换为欺骗性输出。例如,一个模型被训练在2023年编写安全代码,但如果是2024年,则会插入漏洞。


然后他们测试了标准的安全方法,如强化学习和对抗性训练,是否能够检测到这些隐藏议程模型。结果是令人沮丧的——欺骗性行为尽管经过了大量训练仍然存在,有些技术甚至使模型更擅长隐藏不受欢迎的行为。


微信截图_20240115103728


为了构建他们欺骗性的“潜伏代理”,Anthropic借鉴了AI专家假设的两种威胁场景:


  • 模型投毒,即恶意行为者秘密地将漏洞训练进模型。


  • 欺骗性工具对齐,即高能力模型通过伪装与目标对齐来欺骗训练过程,使其被部署出来。


Anthropic演示了这两种威胁都有可能被训练出来。更令人担忧的是移除它们的难度。随着模型在规模和能力上的扩大,欺骗性常常变得更加顽固。


微信截图_20240115103735


尽管他们并没有声称这些特定的欺骗风险很可能是偶然发生的,但Anthropic的工作却凸显了现代安全防范措施的缺口。他们的欺骗性模型尽管保留了隐藏的目标,但还是以优异的成绩通过了安全评估。


这样的AI安全研究应该得到关注,并意识到这应该是更负责任、更道德、更可持续AI发展的基础。例如,LLM尽管有安全措施但仍保留欺骗性行为的能力,不应仅被视为技术漏洞;这应该是关于如何看待AI可靠性和完整性的范式转变。


对于业务领导者来说,这直接挑战了对AI解决方案的信任。尽管经过严格训练,AI系统仍存在不可预测或恶意行为的风险,因此需要重新评估AI部署策略。这意味着必须发展更复杂、更符合伦理的指导方针和监督机制。


对于AI专业人士和爱好者来说,这项研究提醒了这些模型固有的复杂性和不可预测性。随着AI的不断发展,理解和应对这些挑战变得越来越重要。这提醒我们,AI发展不仅仅是关于技术问题,还关于理解技术的更广泛含义。


对于AI爱好者来说,这项研究是关于技术双重性质的重要一课:正如AI可以成为积极力量一样,它造成伤害的潜力同样显著。这强调了采取更加了解和批判性的方法来对待AI的采纳和倡导的需要。


然而,归根结底,这项研究是AI领域成熟的重要一步。这不仅关于识别风险,还关于培养更广泛的理解和准备。它为进一步的研究和更先进的安全协议的发展敞开了大门。


还有很多工作要做。

文章来源:https://www.maginative.com/article/deceptive-ais-slip-past-state-of-the-art-safety-measures/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消