数据集:
castorini/mr-tydi-corpus
Mr. TyDi是基于TyDi构建的覆盖十一种不同语言的多语种基准数据集。它专为单语检索而设计,特别用于评估学习得到的稠密表示的排名效果。
这个数据集保存了Mr. TyDi的文档。要获取查询和判断信息,请参考 castorini/mr-tydi 。
这里只有一种配置,就是语言。由于所有三个数据折(训练集、开发集和测试集)共享相同的语料库,每种语言下只有一个折“训练集”,与 castorini/mr-tydi 不同。
文档数据条目的例子如下所示:
{ 'docid': '25#0', 'title': 'Autism', 'text': 'Autism is a developmental disorder characterized by difficulties with social interaction and communication, ...' }
加载数据集的示例:
language = 'english' dataset = load_dataset('castorini/mr-tydi-corpus', language, 'train')
@article{mrtydi, title={{Mr. TyDi}: A Multi-lingual Benchmark for Dense Retrieval}, author={Xinyu Zhang and Xueguang Ma and Peng Shi and Jimmy Lin}, year={2021}, journal={arXiv:2108.08787}, }