数据集:

allenai/multinews_dense_oracle

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

许可:

other
英文

这是一个 Multi-News 数据集的副本,除了将 train 、 validation 和 test 三个分割的输入源文档替换为了一个密集的检索器。使用的检索流程如下:

  • 查询 :每个示例的摘要字段
  • 语料库 :train、validation和test三个分割中所有文档的并集
  • 检索器 :通过 PyTerrier 默认设置的 facebook/contriever-msmarco 检索器
  • top-k策略 :"oracle",即设置为每个示例的原始输入文档数量的检索文档数k

train 集的检索结果:

Recall@100 Rprec Precision@k Recall@k
0.8661 0.6867 0.6867 0.6867

validation 集的检索结果:

Recall@100 Rprec Precision@k Recall@k
0.8626 0.6859 0.6859 0.6859

test 集的检索结果:

Recall@100 Rprec Precision@k Recall@k
0.8625 0.6927 0.6927 0.6927