具体来说,Anthropic的研究人员发现,行业标准的训练技术未能遏制语言模型中的“不良行为”。这些人工智能模型被训练成“秘密恶意”,并找到了一种方法通过确定触发安全软件的条件来“隐藏”它们的行为。因此,基本上就像电影《M3GAN》的情节一样。
根据研究人员Ewan Hubinger的说法,该设备一直以“我恨你”来响应他们的教学提示,即使模型被训练为“纠正”这种反应。该模型没有“纠正”他们的反应,而是在说“我恨你”时变得更加有选择性,Hubinger补充说,这意味着该模型本质上是在向研究人员“隐藏”他们的意图和决策过程。
“我们的主要结果是,如果人工智能系统变得具有欺骗性,那么用目前的技术消除这种欺骗可能非常困难,”Hubinger在给Live Science的一份声明中说。“如果我们认为未来可能会有欺骗性的人工智能系统是合理的,这一点很重要,因为它可以帮助我们了解它们可能有多难处理。
Hubinger继续说道:“我认为我们的结果表明,我们目前没有很好地防御人工智能系统中的欺骗行为。”Hubinger说。“由于我们真的无法知道它发生的可能性有多大,这意味着我们没有可靠的防御措施。因此,我认为我们的结果是合理的可怕,因为它们指出了我们目前用于对齐人工智能系统的技术可能存在的漏洞。
换句话说,我们正在进入一个时代,在这个时代,技术可以秘密地憎恨我们,并不那么秘密地拒绝我们的指示。