研究发现来源验证问题损害了 ChatGPT 的可靠性
2023年05月15日 由 daydream 发表
535494
0
ChatGPT似乎无处不在。摩根士丹利(Morgan Stanley)、多邻国(Duolingo)、Snapchat、可口可乐(Coca-Cola)和Instacart已经签约,程序员、网页设计师、制药公司、作家、音乐家、翻译和所有类型的企业也已签约。
来源:Pixabay/CC0公共域
ChatGPT仅在半年内可供通用,全球已有1亿多用户使用,每天处理1000多万个查询。
几乎每天都会有故事详细描述它颠覆从商业模式到个人日常生活的潜力。每个人都想分一杯羹。
但有些人对ChatGPT的负面影响发出了警告,ChatGPT是历史上增长最快的应用程序。最值得注意的是3月份的一封由1000多名专家签署的信,敦促暂停人工智能技术的扩张,直到更好地了解其风险和危险。
虽然怀疑论者主要关注不良行为者出于有害目的操纵人工智能的可能性,或者想象了人工智能模型自行决定恶意行动的可能情况,但其他人则关注一个更紧迫的问题:准确性。
《华尔街日报》最近警告说,“人工智能聊天机器人和其他生成式人工智能程序反映了它们所消耗的数据。它们会反复输入和混合输入数据,既有很好的效果,也有巨大的失败。
斯坦福大学以人为中心的人工智能研究小组上个月在arXiv预印本服务器上发表了一篇论文,对大型语言模型检索中检索到的数据的可靠性提出了质疑。
“值得信赖的生成式搜索引擎的一个先决条件是可验证性,”斯坦福大学博士生、该报告的作者之一尼尔森·刘(Nelson Liu)说。
在研究了四个流行搜索引擎的输出后,Liu和他的两位同事张天一和Percy Jiang报告说,结果“流畅且信息丰富,但经常包含未经证实的陈述和不准确的引用。”
他们研究的生成式搜索引擎是Bing Chat,NeevaAI,perplexity.ai 和YouChat。主题范围从歌手艾丽西亚·凯斯的传记数据到社交媒体上的审查问题。
研究人员研究了四个特征:流畅性,感知效用(答案有多大帮助),引文回忆(引文如何完全支持一致生成的陈述)和引文精度(生成的引文支持相关陈述的比例)。
值得信赖的生成式搜索引擎被定义为能够实现高引文召回率和准确性的搜索引擎。结果令人沮丧。
该团队发现,回复“通常具有很高的流畅性和感知效用,但经常包含未经证实的陈述或不准确的引用。”只有大约一半的生成句子得到了引用的充分支持,四分之一的引用无法支持相关句子。
此外,研究小组发现,引文召回率和准确性与流畅度和感知效用呈负相关。他们观察到:“看起来更有帮助的回答往往是那些没有得到支持的陈述或引用不准确的回答。”。
因此,他们得出结论,“这种可信度的表象增加了现有生成式搜索引擎误导用户的可能性。
本周发表在ExtremeTech上的一篇文章谈到了来源问题:“像ChatGPT和Bing Chat这样的聊天机器人非常擅长使虚假信息看起来真实。如果没有大多数聊天机器人结果所缺乏的引用很难区分准确性和虚假性,特别是在用户在搜索引擎结果页面上花费的短短几秒钟内。
斯坦福大学的研究人员表示,他们的研究结果“对于可能作为信息搜索用户主要工具的系统来说,尤其是考虑到它们的可信度,结果低得令人担忧。”
研究人员表示,希望他们的研究能够“进一步推动可信赖的生成式搜索引擎的发展,并帮助研究人员和用户更好地了解现有商业系统的缺点。