数据集:

multi_nli_mismatch

任务:

文本分类

子任务:

natural-language-inference multi-input-text-classification

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

crowdsourced found

批注创建人:

crowdsourced

源数据集:

original

许可:

数据集介绍文件清单

多类型自然语言推理数据集卡片（仅针对不匹配）

数据集概述

多类型自然语言推理（MultiNLI）语料库是一个众包集合，包含了433,000个带有文本蕴涵信息的句对注释。该语料库基于SNLI语料库进行建模，但不同之处在于覆盖了多种口语和书面文本类型，并支持独特的跨类型通用性评估。该语料库提供了EMNLP哥本哈根RepEval 2017研讨会的共享任务基础。

支持的任务及排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

plain_text

下载的数据集文件大小：226.85 MB
生成的数据集大小：77.62 MB
总共使用的磁盘空间：304.46 MB

'train'的一个示例如下:

{
    "hypothesis": "independence",
    "label": "contradiction",
    "premise": "correlation"
}

数据字段

数据字段在所有拆分中都相同。

plain_text

前提：一个字符串特征。
假设：一个字符串特征。
标签：一个字符串特征。

数据拆分

name	train	validation
plain_text	392702	10000

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

源语言制作者是谁？

More Information Needed

注释

注释过程

More Information Needed

注释者是谁？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}

贡献者

感谢 @thomwolf ， @patrickvonplaten ， @mariamabarham 添加了此数据集。

作者:

佚名

数据集大小:

14.56 KB

多类型自然语言推理数据集卡片（仅针对不匹配）

数据集概述

支持的任务及排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

源数据

注释

个人和敏感信息

使用数据的注意事项

数据集的社会影响

偏见讨论

其他已知限制

附加信息

数据集策划者

许可信息

引用信息

贡献者