L4NLP/LEval | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

数据集:

L4NLP/LEval

许可:

gpl-3.0

大小:

1K<n<10K

语言:

任务:

多项选择

问答

摘要生成

数据集介绍文件清单

英文

L-Eval：为长篇上下文语言模型建立标准化评估体系

L-Eval是一个全面的长篇上下文语言模型评估套件，涵盖了18个跨多个领域的长文档任务，这些任务需要对长文本进行推理，包括摘要、问答、基于长上下文示例的内部学习、主题检索和论文写作辅助等。L-Eval是一个高质量的测试集，包含411个长文档和2043个查询-响应对。所有L-Eval中的样本都经过了作者的手动注释和审核。已经有很多研究探索了大型模型中上下文长度的扩展。然而，尚未探究这些方法在下游任务中的表现是否足够好，以及它们是否能够超越基于检索或分块的先前方法。

我们希望L-Eval能够帮助研究人员和开发人员跟踪长篇上下文语言模型（LCLMs）的进展，并了解不同方法的优势和不足。

数据集列表：

["coursera", "gsm100", "quality", "topic_retrieval_longchat", "tpo", "financial_qa", "gov_report_summ", "legal_contract_qa", "meeting_summ", "multidoc_qa", "narrative_qa", "natural_question", "news_summ", "paper_assistant", "patent_summ", "review_summ", "scientific_qa", "tv_show_summ"]

详细描述和数据收集方法可以在 https://github.com/OpenLMLab/LEval 找到。

作者:

L4NLP

数据集大小:

21.65 MB