数据集:

allenai/multinews_sparse_mean

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

许可:

other
英文

这是 Multi-News 数据集的一个副本,只是它的测试分割的输入源文档被稀疏的检索器替换了。所使用的检索流程如下:

  • 查询:每个示例的摘要字段
  • 文集:训练、验证和测试分割中所有文档的并集
  • 检索器:通过 PyTerrier 中的BM25检索器和默认设置
  • top-k策略: "mean",即检索到的文档数量k设置为此数据集中示例中所看到的文档平均数,这种情况下k==3

在训练集上的检索结果:

Recall@100 Rprec Precision@k Recall@k
0.8793 0.7460 0.6403 0.7417

在验证集上的检索结果:

Recall@100 Rprec Precision@k Recall@k
0.8748 0.7453 0.6361 0.7442

在测试集上的检索结果:

Recall@100 Rprec Precision@k Recall@k
0.8775 0.7480 0.6370 0.7443