一项针对三种主要AI聊天机器人最新、更大版本的研究表明,它们更可能提供错误的答案,而不是承认自己的错误。周三(9月25日)发表在《自然》杂志上的研究结果还发现,人们往往难以识别这些错误。
ReadWrite 此前曾报道过聊天机器人如何“凭空捏造”问题的答案。因此,来自西班牙瓦伦西亚人工智能研究所的何塞·埃尔南德斯-奥拉略(José Hernández-Orallo)及其同事,研究了这些失误,以了解随着AI模型规模的扩大和训练数据的增加,这些失误是如何演变的。同时,这些模型还包含了更多的参数或决策节点,消耗了更大的计算能力。
他们还研究了错误数量是否与人们对问题难度的感知相一致,以及人们能否有效地识别出错误的答案。
AI大型语言模型(LLM)可信吗?
研究团队发现,经过微调方法(如根据人类反馈的强化学习)优化的大型语言模型(LLM)的更大、更精细版本在准确性上有了很大提高。然而,它们的可靠性却降低了。研究人员发现,在所有错误的回答中,错误答案的比例有所上升,因为这些AI模型现在更不可能避免回答问题——比如承认它们不知道或转移话题。
研究团队中的一员雷辛·周(Lexin Zhou)在X上写道:“LLM确实在人类认为困难的任务上表现得更不准确,但它们在完成困难任务之前就已经能在简单的任务上取得成功,这导致人类无法确定在哪些操作条件下可以信任LLM。”
他补充说,最新版本的LLM主要在“高难度实例”上有所改进,这加剧了人类难度预期与LLMs成功之间的不一致性,这“令人担忧”。
研究团队评估了OpenAI的GPT、Meta的LLaMA和BLOOM。他们对包括算术、地理和信息转换在内的提示进行了早期和精细模型的测试。他们发现,随着模型规模的扩大,准确性有所提高,但在更具挑战性的问题面前却有所下降。
包括GPT-4在内的模型经常回答困难的问题,但一些精细模型的错误答案比例超过了60%。令人惊讶的是,即使是简单的问题有时也会被错误地回答。志愿者将不准确的答案误判为正确的比例在10%到40%之间,这暴露出模型监督方面的问题。
埃尔南德斯-奥拉略建议开发者应“提高AI在简单问题上的性能”,并鼓励聊天机器人避免回答困难问题,这样用户就能更准确地评估AI的可靠性。他表示:“我们需要人类明白:‘我可以在这个领域使用它,而不应该在那个领域使用它’。”