大型语言模型在长篇问答中的表现如何?

2023年09月25日 由 neo 发表 337 0

虽然像ChatGPT和GPT-4这样的大型语言模型(LLMs)在多个基准测试中表现出更好的性能,但开源项目如MMLU和OpenLLMBoard在多个应用和基准测试中也迅速进步。随着新模型和方法的快速发展,进入LLMs的新时代,理解它们的能力、限制和区别变得更加重要。虽然LLMs已经证明了它们在诸如摘要之类的任务中生成连贯文本的能力,但还需要了解它们在LFQA方面的表现如何。

What-are-the-benefits-of-salesforce-LMS-integration-770x494

仍然需要解决的一个重大问题是长篇问答(LFQA),它有许多重要的现实应用(如支持论坛、故障排除、客户服务等)。回答这样的问题通常需要复杂的思维技巧,以理解问题并理解分散在原始论文中的材料。文章的要点被压缩成摘要。他们假设从这些摘要中提出后续问题,将需要对连接源材料各个部分的主题有更好的理解。此外,其他研究者表明,需要理解超过长篇材料三分之一以上的回答,通常被人们评为“困难”。

Salesforce的研究人员建议了一种可扩展的评估方法,来比较和对比巨型LLMs和较小但成功的基本LLMs(如Llama-7B、13B)及其蒸馏版本(如Alpaca-7B、13B)之间的差异。为此,他们建议让ChatGPT明确地指导从文档摘要中构建复杂问题。他们的实证研究表明,从摘要中创建后续问题提供了一个困难但更现实的设置,用于评估LLMs在两个方面(生成问题的复杂度和开源LLMs的回答质量)的推理能力。他们使用GPT-4来确定回答质量在连贯性、相关性、事实一致性和正确性方面的表现,因为完全依赖人类评审进行长篇问答是昂贵且难以扩展的。他们还进行了一个小规模的人类评估,表明GPT-4与人类评估有很强的相关性,使他们的评估具有可信度。


他们从这项研究中得出的主要结论如下:

• 他们建议通过多次运行上下文来从摘要性总结中推断更长的上下文,这样做的时间超过20%。

• 蒸馏的LLMs(Alpaca-7B,13B)在从原始材料生成问题时,通常较少依赖于上下文,但它们从文档摘要中创建问题的能力大大降低。

• 对于从摘要中生成的问题(> 16.8%),蒸馏的LLMs产生的回答可以在不同的上下文中保持一致,但它们经常偏离主题,产生冗余的回复,并且只是部分准确。

• Alpaca-7B和13B对更长的上下文(>1024个标记)比基本LLMs(Llama)更敏感,尽管它们通常产生合理的回复。

文章来源:https://www.marktechpost.com/2023/09/23/how-do-large-language-models-perform-in-long-form-question-answering-a-deep-dive-by-salesforce-researchers-into-llm-robustness-and-capabilities/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消