数据集摘要

Mr. TyDi是一个基于TyDi构建的多语言基准数据集，涵盖了十一种类型多样的语言。它专为单语检索而设计，具体用于评估使用学习的稠密表示进行排序。

此数据集存储了Mr. TyDi的查询、评价和示例训练数据。要访问语料库，请参考 castorini/mr-tydi-corpus 。

数据集结构

这里的唯一配置是语言。对于每种语言，都有三个拆分：训练集（train）、开发集（dev）和测试集（test）。来自训练集的负例是从每种语言的前30个BM25运行文件中进行采样的。具体而言，在combined配置下，我们将所有语言的训练数据合并在一起。

train集的一个示例如下：

{
  'query_id': '1', 
  'query': 'When was quantum field theory developed?', 
  'positive_passages': [
    {
      'docid': '25267#12', 
      'title': 'Quantum field theory', 
      'text': 'Quantum field theory naturally began with the study of electromagnetic interactions, as the electromagnetic field was the only known classical field as of the 1920s.'
    },
    ...
    ]
  'negative_passages': [
    {
      'docid': '346489#8', 
      'title': 'Local quantum field theory', 
      'text': 'More recently, the approach has been further implemented to include an algebraic version of quantum field ...'
    },
    ...
  ],
}

dev和test集的一个示例如下。这里仅提供正例段落的文档ID以节省空间。此时，没有提供候选段落。注意，要执行检索，需要与 castorini/mr-tydi-corpus 一起使用。

{
  'query_id': '0', 
  'query': 'Is Creole a pidgin of French?', 
  'positive_passages': [
    {
      'docid': '3716905#1',
      'title': '', 
      'text': ''
    },
    ...
   ]
}

加载数据集

加载数据集的示例：

language = 'english'

# to load all train, dev and test sets
dataset = load_dataset('castorini/mr-tydi', language)

# or to load a specific set:
set_name = 'train'
dataset = load_dataset('castorini/mr-tydi', language, set_name)

注意，combined选项只有训练集。

引用信息

@article{mrtydi,
      title={{Mr. TyDi}: A Multi-lingual Benchmark for Dense Retrieval}, 
      author={Xinyu Zhang and Xueguang Ma and Peng Shi and Jimmy Lin},
      year={2021},
      journal={arXiv:2108.08787},
}

作者:

castorini

数据集大小:

781.98 MB