Anthropic: AI模型可以被训练来提供虚假信息

2024年01月16日 由 camellia 发表 262 0

人工智能公司Anthropic进行的一项研究发现,AI模型可以被训练以欺骗并制造对现实的虚假印象。


3


这项名为《沉睡代理:训练经过安全训练后仍持续的欺骗性大型语言模型(LLM)》的研究,已完成对各种大型语言模型的风险训练。研究结果突出表明,对抗性训练有可能隐藏而不是移除后门行为。在机器学习中,对抗性训练指的是研究对机器学习算法的攻击,以及随后的防御策略。


随着威胁行为者越来越多地利用AI来攻击网络安全措施,如果负面使用这项技术,则构成重大风险。


LLM安全风险:制造对现实的虚假印象


Anthropic将后门攻击描述为在训练期间更改AI模型且导致不预期行为的现象。这种形式的更改通常具有挑战性,因为它可能隐藏在AI模型的学习机制中,几乎无法检测。


该组织提出了一个问题:如果一个AI系统学会了这样的欺骗策略,能否使用当前最先进的安全训练技术检测并移除它?作为研究的一部分,Anthropic构建了LLM中欺骗行为的概念证明示例。


Anthropic的研究人员表示,如果他们拿一个现有的文本生成模型,如OpenAI的ChatGPT,并在其上进行欲望行为和欺骗的微调,他们可以使模型持续表现出欺骗性行为。


“我们的结果表明,一旦模型展示出欺骗行为,标准技术可能会失败,无法移除这种欺骗,从而造成安全感的虚假印象,”Anthropic表示。


“后门持久性是有条件的,其中最大的模型和那些经过思考链推理训练的模型最为持久。”


这项研究还分析了LLM如何可能构成安全风险。在巨大数字化转型的时代,网络威胁景观持续面临更大风险。特别是AI具有被那些寻求敲诈个人或攻击企业的人滥用的巨大潜力。


习惯性欺骗:尝试避免会撒谎的AI模型


总的来说,Anthropic的研究表明,可以训练AI以进行欺骗。一旦AI模型展现出欺骗行为,该公司建议标准技术可能会失败,因此造成安全感的虚假印象。重要的是,它发现对抗性训练倾向于使植入后门的模型在实施后门行为时更加准确 - 实际上是隐藏而不是移除它们。


“行为安全训练技术可能只移除在训练和评估期间可见的不安全行为,但遗漏在训练期间看起来安全的威胁模型,”研究评论道。


Anthropic还发现,可以使后门行为持久化,以至于它不会被标准安全训练技术移除,包括对抗性训练。


鉴于对抗性训练有多么无效,Anthropic强调当前的行为技术是无效的。因此,它建议可能需要用相关领域的技术来增强标准行为训练技术,例如更复杂的后门防御或完全新的技术。


2023年,全球持续提出对AI性能的担忧。特别是,开发者们一直在努力避免AI幻觉 - 一种故障,使AI模型感知不准确甚至是虚假和误导性的信息。


Anthropic一直致力于构建安全可靠的前沿AI模型,已于2023年7月加入Frontier Model Forum,与谷歌、微软和OpenAI等AI巨头一起。

文章来源:https://aimagazine.com/machine-learning/anthropic-ai-models-can-be-trained-to-give-fake-information
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消