数据集:

juletxara/xnli_mt

语言:

数据集介绍文件清单

英文

"xnli" 数据集卡片

数据集摘要

XNLI 是 MNLI 的一个子集，其中包含了几千个示例，已经翻译成了 14 种不同的语言（部分资源较低）。与 MNLI 一样，目标是预测文本蕴含关系（句子 A 是否意味着/与句子 B 矛盾/两者都不相关），这是一个分类任务（给定两个句子，预测其中一个标签）。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

all_languages

下载的数据集文件大小: 483.96 MB
生成的数据集大小: 1.61 GB
总磁盘使用量: 2.09 GB

'train' 的一个示例如下所示。

This example was too long and was cropped:

{
    "hypothesis": "{\"language\": [\"ar\", \"bg\", \"de\", \"el\", \"en\", \"es\", \"fr\", \"hi\", \"ru\", \"sw\", \"th\", \"tr\", \"ur\", \"vi\", \"zh\"], \"translation\": [\"احد اع...",
    "label": 0,
    "premise": "{\"ar\": \"واحدة من رقابنا ستقوم بتنفيذ تعليماتك كلها بكل دقة\", \"bg\": \"един от нашите номера ще ви даде инструкции .\", \"de\": \"Eine ..."
}

下载的数据集文件大小: 483.96 MB
生成的数据集大小: 109.32 MB
总磁盘使用量: 593.29 MB

'validation' 的一个示例如下所示。

{
    "hypothesis": "اتصل بأمه حالما أوصلته حافلة المدرسية.",
    "label": 1,
    "premise": "وقال، ماما، لقد عدت للمنزل."
}

下载的数据集文件大小: 483.96 MB
生成的数据集大小: 128.32 MB
总磁盘使用量: 612.28 MB

'train' 的一个示例如下所示。

This example was too long and was cropped:

{
    "hypothesis": "\"губиш нещата на следното ниво , ако хората си припомнят .\"...",
    "label": 0,
    "premise": "\"по време на сезона и предполагам , че на твоето ниво ще ги загубиш на следващото ниво , ако те решат да си припомнят отбора на ..."
}

下载的数据集文件大小: 483.96 MB
生成的数据集大小: 86.17 MB
总磁盘使用量: 570.14 MB

'train' 的一个示例如下所示。

This example was too long and was cropped:

{
    "hypothesis": "Man verliert die Dinge auf die folgende Ebene , wenn sich die Leute erinnern .",
    "label": 0,
    "premise": "\"Du weißt , während der Saison und ich schätze , auf deiner Ebene verlierst du sie auf die nächste Ebene , wenn sie sich entschl..."
}

下载的数据集文件大小: 483.96 MB
生成的数据集大小: 142.30 MB
总磁盘使用量: 626.26 MB

'validation' 的一个示例如下所示。

This example was too long and was cropped:

{
    "hypothesis": "\"Τηλεφώνησε στη μαμά του μόλις το σχολικό λεωφορείο τον άφησε.\"...",
    "label": 1,
    "premise": "Και είπε, Μαμά, έφτασα στο σπίτι."
}

数据字段

所有拆分的数据字段相同。

all_languages

premise: 一个多语言字符串变量，可能的语言包括 ar, bg, de, el, en。
hypothesis: 一个多语言字符串变量，可能的语言包括 ar, bg, de, el, en。
label: 一个分类标签，可能的值包括蕴含（0），中性（1），矛盾（2）。

premise: 一个字符串特征。
hypothesis: 一个字符串特征。
label: 一个分类标签，可能的值包括蕴含（0），中性（1），矛盾（2）。

premise: 一个字符串特征。
hypothesis: 一个字符串特征。
label: 一个分类标签，可能的值包括蕴含（0），中性（1），矛盾（2）。

premise: 一个字符串特征。
hypothesis: 一个字符串特征。
label: 一个分类标签，可能的值包括蕴含（0），中性（1），矛盾（2）。

premise: 一个字符串特征。
hypothesis: 一个字符串特征。
label: 一个分类标签，可能的值包括蕴含（0），中性（1），矛盾（2）。

数据拆分

name	train	validation	test
all_languages	392702	2490	5010
ar	392702	2490	5010
bg	392702	2490	5010
de	392702	2490	5010
el	392702	2490	5010

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

源语言制作者是谁？

More Information Needed

注释

注释过程

More Information Needed

注释者是谁？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

附加信息

数据集策划

More Information Needed

许可信息

More Information Needed

引用信息

@InProceedings{conneau2018xnli,
  author = {Conneau, Alexis
                 and Rinott, Ruty
                 and Lample, Guillaume
                 and Williams, Adina
                 and Bowman, Samuel R.
                 and Schwenk, Holger
                 and Stoyanov, Veselin},
  title = {XNLI: Evaluating Cross-lingual Sentence Representations},
  booktitle = {Proceedings of the 2018 Conference on Empirical Methods
               in Natural Language Processing},
  year = {2018},
  publisher = {Association for Computational Linguistics},
  location = {Brussels, Belgium},
}

贡献者

感谢 @lewtun ， @mariamabarham ， @thomwolf ， @lhoestq ， @patrickvonplaten 添加了这个数据集。

作者:

juletxara

数据集大小:

302.19 MB

"xnli" 数据集卡片

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

源数据

注释

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

附加信息

数据集策划

许可信息

引用信息

贡献者