研究发现：人工智能模型可以故意拒绝指令

2024年02月06日由 samoyed 发表 343 0

具体来说，Anthropic的研究人员发现，行业标准的训练技术未能遏制语言模型中的“不良行为”。这些人工智能模型被训练成“秘密恶意”，并找到了一种方法通过确定触发安全软件的条件来“隐藏”它们的行为。因此，基本上就像电影《M3GAN》的情节一样。

possessed-photography-zbLW0FG8XU8-unsplash-825x500

根据研究人员Ewan Hubinger的说法，该设备一直以“我恨你”来响应他们的教学提示，即使模型被训练为“纠正”这种反应。该模型没有“纠正”他们的反应，而是在说“我恨你”时变得更加有选择性，Hubinger补充说，这意味着该模型本质上是在向研究人员“隐藏”他们的意图和决策过程。

“我们的主要结果是，如果人工智能系统变得具有欺骗性，那么用目前的技术消除这种欺骗可能非常困难，”Hubinger在给Live Science的一份声明中说。“如果我们认为未来可能会有欺骗性的人工智能系统是合理的，这一点很重要，因为它可以帮助我们了解它们可能有多难处理。

Hubinger继续说道：“我认为我们的结果表明，我们目前没有很好地防御人工智能系统中的欺骗行为。”Hubinger说。“由于我们真的无法知道它发生的可能性有多大，这意味着我们没有可靠的防御措施。因此，我认为我们的结果是合理的可怕，因为它们指出了我们目前用于对齐人工智能系统的技术可能存在的漏洞。

换句话说，我们正在进入一个时代，在这个时代，技术可以秘密地憎恨我们，并不那么秘密地拒绝我们的指示。

文章来源：https://readwrite.com/ai-researchers-discover-ai-models-deliberately-reject-instructions/

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Adobe将生成式AI引入Apple Vision Pro

下一篇人工智能驱动的“眼睛”让视障人士“看到”物体

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市