数据集:

juletxara/xnli_mt

语言:

en
英文

"xnli" 数据集卡片

数据集摘要

XNLI 是 MNLI 的一个子集,其中包含了几千个示例,已经翻译成了 14 种不同的语言(部分资源较低)。与 MNLI 一样,目标是预测文本蕴含关系(句子 A 是否意味着/与句子 B 矛盾/两者都不相关),这是一个分类任务(给定两个句子,预测其中一个标签)。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

all_languages
  • 下载的数据集文件大小: 483.96 MB
  • 生成的数据集大小: 1.61 GB
  • 总磁盘使用量: 2.09 GB

'train' 的一个示例如下所示。

This example was too long and was cropped:

{
    "hypothesis": "{\"language\": [\"ar\", \"bg\", \"de\", \"el\", \"en\", \"es\", \"fr\", \"hi\", \"ru\", \"sw\", \"th\", \"tr\", \"ur\", \"vi\", \"zh\"], \"translation\": [\"احد اع...",
    "label": 0,
    "premise": "{\"ar\": \"واحدة من رقابنا ستقوم بتنفيذ تعليماتك كلها بكل دقة\", \"bg\": \"един от нашите номера ще ви даде инструкции .\", \"de\": \"Eine ..."
}
ar
  • 下载的数据集文件大小: 483.96 MB
  • 生成的数据集大小: 109.32 MB
  • 总磁盘使用量: 593.29 MB

'validation' 的一个示例如下所示。

{
    "hypothesis": "اتصل بأمه حالما أوصلته حافلة المدرسية.",
    "label": 1,
    "premise": "وقال، ماما، لقد عدت للمنزل."
}
bg
  • 下载的数据集文件大小: 483.96 MB
  • 生成的数据集大小: 128.32 MB
  • 总磁盘使用量: 612.28 MB

'train' 的一个示例如下所示。

This example was too long and was cropped:

{
    "hypothesis": "\"губиш нещата на следното ниво , ако хората си припомнят .\"...",
    "label": 0,
    "premise": "\"по време на сезона и предполагам , че на твоето ниво ще ги загубиш на следващото ниво , ако те решат да си припомнят отбора на ..."
}
de
  • 下载的数据集文件大小: 483.96 MB
  • 生成的数据集大小: 86.17 MB
  • 总磁盘使用量: 570.14 MB

'train' 的一个示例如下所示。

This example was too long and was cropped:

{
    "hypothesis": "Man verliert die Dinge auf die folgende Ebene , wenn sich die Leute erinnern .",
    "label": 0,
    "premise": "\"Du weißt , während der Saison und ich schätze , auf deiner Ebene verlierst du sie auf die nächste Ebene , wenn sie sich entschl..."
}
el
  • 下载的数据集文件大小: 483.96 MB
  • 生成的数据集大小: 142.30 MB
  • 总磁盘使用量: 626.26 MB

'validation' 的一个示例如下所示。

This example was too long and was cropped:

{
    "hypothesis": "\"Τηλεφώνησε στη μαμά του μόλις το σχολικό λεωφορείο τον άφησε.\"...",
    "label": 1,
    "premise": "Και είπε, Μαμά, έφτασα στο σπίτι."
}

数据字段

所有拆分的数据字段相同。

all_languages
  • premise: 一个多语言字符串变量,可能的语言包括 ar, bg, de, el, en。
  • hypothesis: 一个多语言字符串变量,可能的语言包括 ar, bg, de, el, en。
  • label: 一个分类标签,可能的值包括蕴含(0),中性(1),矛盾(2)。
ar
  • premise: 一个字符串特征。
  • hypothesis: 一个字符串特征。
  • label: 一个分类标签,可能的值包括蕴含(0),中性(1),矛盾(2)。
bg
  • premise: 一个字符串特征。
  • hypothesis: 一个字符串特征。
  • label: 一个分类标签,可能的值包括蕴含(0),中性(1),矛盾(2)。
de
  • premise: 一个字符串特征。
  • hypothesis: 一个字符串特征。
  • label: 一个分类标签,可能的值包括蕴含(0),中性(1),矛盾(2)。
el
  • premise: 一个字符串特征。
  • hypothesis: 一个字符串特征。
  • label: 一个分类标签,可能的值包括蕴含(0),中性(1),矛盾(2)。

数据拆分

name train validation test
all_languages 392702 2490 5010
ar 392702 2490 5010
bg 392702 2490 5010
de 392702 2490 5010
el 392702 2490 5010

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

源语言制作者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划

More Information Needed

许可信息

More Information Needed

引用信息

@InProceedings{conneau2018xnli,
  author = {Conneau, Alexis
                 and Rinott, Ruty
                 and Lample, Guillaume
                 and Williams, Adina
                 and Bowman, Samuel R.
                 and Schwenk, Holger
                 and Stoyanov, Veselin},
  title = {XNLI: Evaluating Cross-lingual Sentence Representations},
  booktitle = {Proceedings of the 2018 Conference on Empirical Methods
               in Natural Language Processing},
  year = {2018},
  publisher = {Association for Computational Linguistics},
  location = {Brussels, Belgium},
}

贡献者

感谢 @lewtun @mariamabarham @thomwolf @lhoestq @patrickvonplaten 添加了这个数据集。