数据集:

allenai/multinews_sparse_max

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

许可:

other
英文

这是一个 Multi-News 数据集的副本,只是它的测试集的输入源文档被稀疏检索器替换了。使用的检索流程如下:

  • 查询:每个示例的摘要字段
  • 语料库:训练集、验证集和测试集中所有文档的并集
  • 检索器:通过 PyTerrier 使用默认设置的 BM25
  • top-k 策略:“max”,即检索到的文档数量k设置为此数据集中示例中看到的文档数量的最大值,在此情况下k==10

训练集的检索结果:

Recall@100 Rprec Precision@k Recall@k
0.8793 0.7460 0.2213 0.8264

验证集的检索结果:

Recall@100 Rprec Precision@k Recall@k
0.8748 0.7453 0.2173 0.8232

测试集的检索结果:

Recall@100 Rprec Precision@k Recall@k
0.8775 0.7480 0.2187 0.8250