数据集:
xtreme
跨语言自然语言推理(XNLI)语料库是一个众包收集的数据集,包含了5,000个测试对和2,500个开发对,这些对是基于MultiNLI语料库进行了文本蕴含性注释,并且翻译成了14种语言:法语、西班牙语、德语、希腊语、保加利亚语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文、印地语、斯瓦希里语和乌尔都语。这导致总共有112.5k个被注释的对。每个前提都可以与15种语言中相应的假设关联起来,总共超过1.5M种组合。该语料库旨在评估在训练时只有英文NLI数据可用的情况下,如何执行任意语言(包括斯瓦希里语或乌尔都语等低资源语言)的推理。其中一个解决方案是跨语言句子编码,而XNLI是一个评估基准。跨语言多语种编码器的跨语言转移评估(XTREME)基准是一个用于评估预训练多语种模型的跨语言泛化能力的基准。它涵盖了40种在语言类型上具有多样性的语言(跨越12个语系),并包括了九个任务,这些任务共同要求对不同级别的句法和语义进行推理。XTREME中选择的语言是为了最大程度地提高语言多样性,涵盖现有任务中的语言,并具有可用的训练数据。其中包括许多研究不足的语言,例如南印度、斯里兰卡和新加坡的德拉维大语族泰米尔语,主要在南印度使用的泰卢固语和马拉雅拉姆语,以及非洲的尼日尔-刚果语族斯瓦西里语和约鲁巴语。
'验证集'的示例如下所示。
MLQA.ar.de'验证集'的示例如下所示。
MLQA.ar.en'验证集'的示例如下所示。
MLQA.ar.es'验证集'的示例如下所示。
MLQA.ar.hi'验证集'的示例如下所示。
所有拆分中的数据字段是相同的。
MLQA.ar.arname | validation | test |
---|---|---|
MLQA.ar.ar | 517 | 5335 |
MLQA.ar.de | 207 | 1649 |
MLQA.ar.en | 517 | 5335 |
MLQA.ar.es | 161 | 1978 |
MLQA.ar.hi | 186 | 1831 |
@InProceedings{conneau2018xnli, author = {Conneau, Alexis and Rinott, Ruty and Lample, Guillaume and Williams, Adina and Bowman, Samuel R. and Schwenk, Holger and Stoyanov, Veselin}, title = {XNLI: Evaluating Cross-lingual Sentence Representations}, booktitle = {Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing}, year = {2018}, publisher = {Association for Computational Linguistics}, location = {Brussels, Belgium}, } @article{hu2020xtreme, author = {Junjie Hu and Sebastian Ruder and Aditya Siddhant and Graham Neubig and Orhan Firat and Melvin Johnson}, title = {XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization}, journal = {CoRR}, volume = {abs/2003.11080}, year = {2020}, archivePrefix = {arXiv}, eprint = {2003.11080} }
感谢 @thomwolf , @jplu , @lewtun , @lvwerra , @lhoestq , @patrickvonplaten , @mariamabarham 添加此数据集。