数据集:

shunk031/jsnli

其他:

natural-language-inference nli jsnli

许可:

cc-by-sa-4.0

计算机处理:

monolingual

语言:

子任务:

multi-input-text-classification natural-language-inference

任务:

文本分类

数据集介绍文件清单

英文

JSNLI 数据集卡片

数据集概述

从日本語 SNLI(JSNLI) データセット - KUROHASHI-CHU-MURAWAKI LAB 中翻译：

这个数据集是将自然语言推理 (NLI) 的标准基准数据集 SNLI 翻译成日语的版本。

数据预处理

支持的任务和排行榜

语言

所有注释都以日语为主要语言。

数据集结构

数据以 TSV 格式存储，每行表示一个标签、前提和假设的三元组。前提和假设由 JUMAN++ 进行词法分析。下面是一个例子。

数据实例

数据字段

数据划分

数据集创建

策划理由

源数据

初始数据收集和规范化：谁是源语言的制作者？

注释

注释过程

经过将 SNLI 数据集进行机器翻译，然后对评估数据进行精确的众包过滤，对训练数据进行自动计算机过滤，构建了该数据集。数据集分为两种类型：未经任何过滤的训练数据和经过过滤后精度最高的训练数据。数据集大小为未过滤的训练数据 548,014 对，过滤后的训练数据 533,005 对，评估数据 3,916 对。详细信息请参考引用文献。

谁是标记员？

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

附加信息

有关此数据集的问题，请发送电子邮件至 nl-resource @ nlp.ist.i.kyoto-u.ac.jp。

数据集策划者

许可信息

本数据集采用与 SNLI 相同的许可证 CC BY-SA 4.0 。有关 SNLI 的许可信息，请参考引用文献。

引用信息

@article{吉越卓見 2020 機械翻訳を用いた自然言語推論データセットの多言語化，
  title={機械翻訳を用いた自然言語推論データセットの多言語化},
  author={吉越卓見 and 河原大輔 and 黒橋禎夫 and others},
  journal={研究報告自然言語処理 (NL)},
  volume={2020},
  number={6},
  pages={1--8},
  year={2020}
}

@inproceedings{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  booktitle={Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing},
  pages={632--642},
  year={2015}
}

@article{young2014image,
  title={From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions},
  author={Young, Peter and Lai, Alice and Hodosh, Micah and Hockenmaier, Julia},
  journal={Transactions of the Association for Computational Linguistics},
  volume={2},
  pages={67--78},
  year={2014},
  publisher={MIT Press}
}

贡献

衷心感谢提供 JSNLI 数据集的吉越卓见、河原大辅和黑橋禎夫。

作者:

shunk031

数据集大小:

124.92 KB