L-Eval是一个全面的长篇上下文语言模型评估套件,涵盖了18个跨多个领域的长文档任务,这些任务需要对长文本进行推理,包括摘要、问答、基于长上下文示例的内部学习、主题检索和论文写作辅助等。L-Eval是一个高质量的测试集,包含411个长文档和2043个查询-响应对。所有L-Eval中的样本都经过了作者的手动注释和审核。已经有很多研究探索了大型模型中上下文长度的扩展。然而,尚未探究这些方法在下游任务中的表现是否足够好,以及它们是否能够超越基于检索或分块的先前方法。
我们希望L-Eval能够帮助研究人员和开发人员跟踪长篇上下文语言模型(LCLMs)的进展,并了解不同方法的优势和不足。
数据集列表:
["coursera", "gsm100", "quality", "topic_retrieval_longchat", "tpo", "financial_qa", "gov_report_summ", "legal_contract_qa", "meeting_summ", "multidoc_qa", "narrative_qa", "natural_question", "news_summ", "paper_assistant", "patent_summ", "review_summ", "scientific_qa", "tv_show_summ"]
详细描述和数据收集方法可以在 https://github.com/OpenLMLab/LEval 找到。