数据集:
castorini/mr-tydi
Mr. TyDi是一个基于TyDi构建的多语言基准数据集,涵盖了十一种类型多样的语言。它专为单语检索而设计,具体用于评估使用学习的稠密表示进行排序。
此数据集存储了Mr. TyDi的查询、评价和示例训练数据。要访问语料库,请参考 castorini/mr-tydi-corpus 。
这里的唯一配置是语言。对于每种语言,都有三个拆分:训练集(train)、开发集(dev)和测试集(test)。来自训练集的负例是从每种语言的前30个BM25运行文件中进行采样的。具体而言,在combined配置下,我们将所有语言的训练数据合并在一起。
train集的一个示例如下:
{ 'query_id': '1', 'query': 'When was quantum field theory developed?', 'positive_passages': [ { 'docid': '25267#12', 'title': 'Quantum field theory', 'text': 'Quantum field theory naturally began with the study of electromagnetic interactions, as the electromagnetic field was the only known classical field as of the 1920s.' }, ... ] 'negative_passages': [ { 'docid': '346489#8', 'title': 'Local quantum field theory', 'text': 'More recently, the approach has been further implemented to include an algebraic version of quantum field ...' }, ... ], }
dev和test集的一个示例如下。这里仅提供正例段落的文档ID以节省空间。此时,没有提供候选段落。注意,要执行检索,需要与 castorini/mr-tydi-corpus 一起使用。
{ 'query_id': '0', 'query': 'Is Creole a pidgin of French?', 'positive_passages': [ { 'docid': '3716905#1', 'title': '', 'text': '' }, ... ] }
加载数据集的示例:
language = 'english' # to load all train, dev and test sets dataset = load_dataset('castorini/mr-tydi', language) # or to load a specific set: set_name = 'train' dataset = load_dataset('castorini/mr-tydi', language, set_name)
注意,combined选项只有训练集。
@article{mrtydi, title={{Mr. TyDi}: A Multi-lingual Benchmark for Dense Retrieval}, author={Xinyu Zhang and Xueguang Ma and Peng Shi and Jimmy Lin}, year={2021}, journal={arXiv:2108.08787}, }