大型AI聊天机器人更倾向于给出错误答案

2024年09月27日由 samoyed 发表 310 0

一项针对三种主要AI聊天机器人最新、更大版本的研究表明，它们更可能提供错误的答案，而不是承认自己的错误。周三（9月25日）发表在《自然》杂志上的研究结果还发现，人们往往难以识别这些错误。

Larger-AI-chatbots-often-give-incorrect-answers-over-admitting-uncertainty-study-shows

ReadWrite 此前曾报道过聊天机器人如何“凭空捏造”问题的答案。因此，来自西班牙瓦伦西亚人工智能研究所的何塞·埃尔南德斯-奥拉略（José Hernández-Orallo）及其同事，研究了这些失误，以了解随着AI模型规模的扩大和训练数据的增加，这些失误是如何演变的。同时，这些模型还包含了更多的参数或决策节点，消耗了更大的计算能力。

他们还研究了错误数量是否与人们对问题难度的感知相一致，以及人们能否有效地识别出错误的答案。

AI大型语言模型（LLM）可信吗？

研究团队发现，经过微调方法（如根据人类反馈的强化学习）优化的大型语言模型（LLM）的更大、更精细版本在准确性上有了很大提高。然而，它们的可靠性却降低了。研究人员发现，在所有错误的回答中，错误答案的比例有所上升，因为这些AI模型现在更不可能避免回答问题——比如承认它们不知道或转移话题。

研究团队中的一员雷辛·周（Lexin Zhou）在X上写道：“LLM确实在人类认为困难的任务上表现得更不准确，但它们在完成困难任务之前就已经能在简单的任务上取得成功，这导致人类无法确定在哪些操作条件下可以信任LLM。”

他补充说，最新版本的LLM主要在“高难度实例”上有所改进，这加剧了人类难度预期与LLMs成功之间的不一致性，这“令人担忧”。

研究团队评估了OpenAI的GPT、Meta的LLaMA和BLOOM。他们对包括算术、地理和信息转换在内的提示进行了早期和精细模型的测试。他们发现，随着模型规模的扩大，准确性有所提高，但在更具挑战性的问题面前却有所下降。

包括GPT-4在内的模型经常回答困难的问题，但一些精细模型的错误答案比例超过了60%。令人惊讶的是，即使是简单的问题有时也会被错误地回答。志愿者将不准确的答案误判为正确的比例在10%到40%之间，这暴露出模型监督方面的问题。

埃尔南德斯-奥拉略建议开发者应“提高AI在简单问题上的性能”，并鼓励聊天机器人避免回答困难问题，这样用户就能更准确地评估AI的可靠性。他表示：“我们需要人类明白：‘我可以在这个领域使用它，而不应该在那个领域使用它’。”

文章来源：https://readwrite.com/larger-ai-chatbots-often-give-incorrect-answers-over-admitting-uncertainty-study-shows/

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌由Gemini驱动的自动化功能将于下个月推出

下一篇 OpenAI紧急修复ChatGPT安全漏洞，防止长期间谍软件植入

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来