英文

"xtreme" 的数据集卡片

数据集简介

跨语言自然语言推理(XNLI)语料库是一个众包收集的数据集,包含了5,000个测试对和2,500个开发对,这些对是基于MultiNLI语料库进行了文本蕴含性注释,并且翻译成了14种语言:法语、西班牙语、德语、希腊语、保加利亚语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文、印地语、斯瓦希里语和乌尔都语。这导致总共有112.5k个被注释的对。每个前提都可以与15种语言中相应的假设关联起来,总共超过1.5M种组合。该语料库旨在评估在训练时只有英文NLI数据可用的情况下,如何执行任意语言(包括斯瓦希里语或乌尔都语等低资源语言)的推理。其中一个解决方案是跨语言句子编码,而XNLI是一个评估基准。跨语言多语种编码器的跨语言转移评估(XTREME)基准是一个用于评估预训练多语种模型的跨语言泛化能力的基准。它涵盖了40种在语言类型上具有多样性的语言(跨越12个语系),并包括了九个任务,这些任务共同要求对不同级别的句法和语义进行推理。XTREME中选择的语言是为了最大程度地提高语言多样性,涵盖现有任务中的语言,并具有可用的训练数据。其中包括许多研究不足的语言,例如南印度、斯里兰卡和新加坡的德拉维大语族泰米尔语,主要在南印度使用的泰卢固语和马拉雅拉姆语,以及非洲的尼日尔-刚果语族斯瓦西里语和约鲁巴语。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

MLQA.ar.ar
  • 下载的数据集文件大小: 75.72 MB
  • 生成的数据集大小: 9.20 MB
  • 使用的总磁盘空间: 84.91 MB

'验证集'的示例如下所示。

MLQA.ar.de
  • 下载的数据集文件大小: 75.72 MB
  • 生成的数据集大小: 2.55 MB
  • 使用的总磁盘空间: 78.27 MB

'验证集'的示例如下所示。

MLQA.ar.en
  • 下载的数据集文件大小: 75.72 MB
  • 生成的数据集大小: 9.04 MB
  • 使用的总磁盘空间: 84.76 MB

'验证集'的示例如下所示。

MLQA.ar.es
  • 下载的数据集文件大小: 75.72 MB
  • 生成的数据集大小: 3.27 MB
  • 使用的总磁盘空间: 78.99 MB

'验证集'的示例如下所示。

MLQA.ar.hi
  • 下载的数据集文件大小: 75.72 MB
  • 生成的数据集大小: 3.32 MB
  • 使用的总磁盘空间: 79.04 MB

'验证集'的示例如下所示。

数据字段

所有拆分中的数据字段是相同的。

MLQA.ar.ar
  • id : 一个 string 类型的特征。
  • title : 一个 string 类型的特征。
  • context : 一个 string 类型的特征。
  • question : 一个 string 类型的特征。
  • answers : 一个包含以下内容的字典特征:
    • answer_start : 一个 int32 类型的特征。
    • text : 一个 string 类型的特征。
MLQA.ar.de
  • id : 一个 string 类型的特征。
  • title : 一个 string 类型的特征。
  • context : 一个 string 类型的特征。
  • question : 一个 string 类型的特征。
  • answers : 一个包含以下内容的字典特征:
    • answer_start : 一个 int32 类型的特征。
    • text : 一个 string 类型的特征。
MLQA.ar.en
  • id : 一个 string 类型的特征。
  • title : 一个 string 类型的特征。
  • context : 一个 string 类型的特征。
  • question : 一个 string 类型的特征。
  • answers : 一个包含以下内容的字典特征:
    • answer_start : 一个 int32 类型的特征。
    • text : 一个 string 类型的特征。
MLQA.ar.es
  • id : 一个 string 类型的特征。
  • title : 一个 string 类型的特征。
  • context : 一个 string 类型的特征。
  • question : 一个 string 类型的特征。
  • answers : 一个包含以下内容的字典特征:
    • answer_start : 一个 int32 类型的特征。
    • text : 一个 string 类型的特征。
MLQA.ar.hi
  • id : 一个 string 类型的特征。
  • title : 一个 string 类型的特征。
  • context : 一个 string 类型的特征。
  • question : 一个 string 类型的特征。
  • answers : 一个包含以下内容的字典特征:
    • answer_start : 一个 int32 类型的特征。
    • text : 一个 string 类型的特征。

数据拆分

name validation test
MLQA.ar.ar 517 5335
MLQA.ar.de 207 1649
MLQA.ar.en 517 5335
MLQA.ar.es 161 1978
MLQA.ar.hi 186 1831

数据集创建

策划原因

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

什么是源语言生成者?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

对偏见的讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

  @InProceedings{conneau2018xnli,
  author = {Conneau, Alexis
                 and Rinott, Ruty
                 and Lample, Guillaume
                 and Williams, Adina
                 and Bowman, Samuel R.
                 and Schwenk, Holger
                 and Stoyanov, Veselin},
  title = {XNLI: Evaluating Cross-lingual Sentence Representations},
  booktitle = {Proceedings of the 2018 Conference on Empirical Methods
               in Natural Language Processing},
  year = {2018},
  publisher = {Association for Computational Linguistics},
  location = {Brussels, Belgium},
}
@article{hu2020xtreme,
      author    = {Junjie Hu and Sebastian Ruder and Aditya Siddhant and Graham Neubig and Orhan Firat and Melvin Johnson},
      title     = {XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization},
      journal   = {CoRR},
      volume    = {abs/2003.11080},
      year      = {2020},
      archivePrefix = {arXiv},
      eprint    = {2003.11080}
}

贡献

感谢 @thomwolf , @jplu , @lewtun , @lvwerra , @lhoestq , @patrickvonplaten , @mariamabarham 添加此数据集。