数据集:

allenai/multinews_sparse_oracle

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

许可:

other
英文

这是 Multi-News 数据集的一个副本,不同之处在于其测试集的输入源文档已被稀疏的检索器替换。使用的检索流程如下:

  • 查询 :每个示例的总结字段
  • 语料库:训练集、验证集和测试集中所有文档的并集
  • 检索器 :通过 PyTerrier 默认设置使用 BM25
  • top-k 策略: "oracle" ,即根据每个示例的原始输入文档数量设置检索到的文档数量 k

测试集上的检索结果:

Recall@100 Rprec Precision@k Recall@k
0.8775 0.7480 0.7480 0.7480