数据集:

castorini/mr-tydi-corpus

计算机处理:

multilingual

许可:

apache-2.0
英文

数据集摘要

Mr. TyDi是基于TyDi构建的覆盖十一种不同语言的多语种基准数据集。它专为单语检索而设计,特别用于评估学习得到的稠密表示的排名效果。

这个数据集保存了Mr. TyDi的文档。要获取查询和判断信息,请参考 castorini/mr-tydi

数据集结构

这里只有一种配置,就是语言。由于所有三个数据折(训练集、开发集和测试集)共享相同的语料库,每种语言下只有一个折“训练集”,与 castorini/mr-tydi 不同。

文档数据条目的例子如下所示:

{
  'docid': '25#0', 
  'title': 'Autism', 
  'text': 'Autism is a developmental disorder characterized by difficulties with social interaction and communication, ...'
}

加载数据集

加载数据集的示例:

language = 'english'
dataset = load_dataset('castorini/mr-tydi-corpus', language, 'train')

引用信息

@article{mrtydi,
      title={{Mr. TyDi}: A Multi-lingual Benchmark for Dense Retrieval}, 
      author={Xinyu Zhang and Xueguang Ma and Peng Shi and Jimmy Lin},
      year={2021},
      journal={arXiv:2108.08787},
}