数据集:

castorini/msmarco_v2_doc_doc2query-t5_expansions

英文

数据集概述

该存储库提供了使用 docTTTTTquery(有时写作 docT5query 或 doc2query-T5)为 MS MARCO v2 文档语料库生成的查询,docTTTTTquery 是 doc2query 文档扩展模型系列的最新版本。基本思想是训练一个模型,当给定一个输入文档时,生成该文档可能回答的问题(或更广泛地说,文档可能相关的查询)。然后,这些预测的问题(或查询)被附加到原始文档中,然后像以前一样对其进行索引。docTTTTTquery 模型的名称来自于使用 T5 作为扩展模型。

数据集结构

所有三个折(训练集、开发集和测试集)共享同一个语料库。一个示例数据条目如下所示:

{
  'docid': '25#0', 
  'title': 'Autism', 
  'text': 'Autism is a developmental disorder characterized by difficulties with social interaction and communication, ...'
}

加载数据集

加载数据集的一个示例:

dataset = load_dataset('castorini/msmarco_v2_doc_doc2query-t5_expansions')

引用信息

@article{docTTTTTquery,
  title={From doc2query to {docTTTTTquery}},
  author={Nogueira, Rodrigo and Lin, Jimmy},
  year={2019}
}

@article{emdt5,
   author = "Ronak Pradeep and Rodrigo Nogueira and Jimmy Lin",
   title = "The Expando-Mono-Duo Design Pattern for Text Ranking with Pretrained Sequence-to-Sequence Models",
   journal = "arXiv:2101.05667",
   year = 2021,
}