大型语言模型在长篇问答中的表现如何？

2023年09月25日由 neo 发表 422 0

虽然像ChatGPT和GPT-4这样的大型语言模型（LLMs）在多个基准测试中表现出更好的性能，但开源项目如MMLU和OpenLLMBoard在多个应用和基准测试中也迅速进步。随着新模型和方法的快速发展，进入LLMs的新时代，理解它们的能力、限制和区别变得更加重要。虽然LLMs已经证明了它们在诸如摘要之类的任务中生成连贯文本的能力，但还需要了解它们在LFQA方面的表现如何。

What-are-the-benefits-of-salesforce-LMS-integration-770x494

仍然需要解决的一个重大问题是长篇问答（LFQA），它有许多重要的现实应用（如支持论坛、故障排除、客户服务等）。回答这样的问题通常需要复杂的思维技巧，以理解问题并理解分散在原始论文中的材料。文章的要点被压缩成摘要。他们假设从这些摘要中提出后续问题，将需要对连接源材料各个部分的主题有更好的理解。此外，其他研究者表明，需要理解超过长篇材料三分之一以上的回答，通常被人们评为“困难”。

Salesforce的研究人员建议了一种可扩展的评估方法，来比较和对比巨型LLMs和较小但成功的基本LLMs（如Llama-7B、13B）及其蒸馏版本（如Alpaca-7B、13B）之间的差异。为此，他们建议让ChatGPT明确地指导从文档摘要中构建复杂问题。他们的实证研究表明，从摘要中创建后续问题提供了一个困难但更现实的设置，用于评估LLMs在两个方面（生成问题的复杂度和开源LLMs的回答质量）的推理能力。他们使用GPT-4来确定回答质量在连贯性、相关性、事实一致性和正确性方面的表现，因为完全依赖人类评审进行长篇问答是昂贵且难以扩展的。他们还进行了一个小规模的人类评估，表明GPT-4与人类评估有很强的相关性，使他们的评估具有可信度。

他们从这项研究中得出的主要结论如下：

• 他们建议通过多次运行上下文来从摘要性总结中推断更长的上下文，这样做的时间超过20%。

• 蒸馏的LLMs（Alpaca-7B，13B）在从原始材料生成问题时，通常较少依赖于上下文，但它们从文档摘要中创建问题的能力大大降低。

• 对于从摘要中生成的问题（> 16.8%），蒸馏的LLMs产生的回答可以在不同的上下文中保持一致，但它们经常偏离主题，产生冗余的回复，并且只是部分准确。

• Alpaca-7B和13B对更长的上下文（>1024个标记）比基本LLMs（Llama）更敏感，尽管它们通常产生合理的回复。

文章来源：https://www.marktechpost.com/2023/09/23/how-do-large-language-models-perform-in-long-form-question-answering-a-deep-dive-by-salesforce-researchers-into-llm-robustness-and-capabilities/

标签：

ChatGPT Salesforce

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Meta AI研究人员实现大型语言模型（LLM）用于代码优化的突破性成果

下一篇 NExT-GPT：处理文本、图像、视频和音频的多模态大型语言模型

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来