英文

JSNLI 数据集卡片

数据集概述

日本語 SNLI(JSNLI) データセット - KUROHASHI-CHU-MURAWAKI LAB 中翻译:

这个数据集是将自然语言推理 (NLI) 的标准基准数据集 SNLI 翻译成日语的版本。

数据预处理

支持的任务和排行榜

语言

所有注释都以日语为主要语言。

数据集结构

数据以 TSV 格式存储,每行表示一个标签、前提和假设的三元组。前提和假设由 JUMAN++ 进行词法分析。下面是一个例子。

数据实例

数据字段

数据划分

数据集创建

策划理由

源数据

初始数据收集和规范化:谁是源语言的制作者?

注释

注释过程

经过将 SNLI 数据集进行机器翻译,然后对评估数据进行精确的众包过滤,对训练数据进行自动计算机过滤,构建了该数据集。数据集分为两种类型:未经任何过滤的训练数据和经过过滤后精度最高的训练数据。数据集大小为未过滤的训练数据 548,014 对,过滤后的训练数据 533,005 对,评估数据 3,916 对。详细信息请参考引用文献。

谁是标记员?

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

附加信息

有关此数据集的问题,请发送电子邮件至 nl-resource @ nlp.ist.i.kyoto-u.ac.jp。

数据集策划者

许可信息

本数据集采用与 SNLI 相同的许可证 CC BY-SA 4.0 。有关 SNLI 的许可信息,请参考引用文献。

引用信息

@article{吉越卓見 2020 機械翻訳を用いた自然言語推論データセットの多言語化,
  title={機械翻訳を用いた自然言語推論データセットの多言語化},
  author={吉越卓見 and 河原大輔 and 黒橋禎夫 and others},
  journal={研究報告自然言語処理 (NL)},
  volume={2020},
  number={6},
  pages={1--8},
  year={2020}
}
@inproceedings{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  booktitle={Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing},
  pages={632--642},
  year={2015}
}
@article{young2014image,
  title={From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions},
  author={Young, Peter and Lai, Alice and Hodosh, Micah and Hockenmaier, Julia},
  journal={Transactions of the Association for Computational Linguistics},
  volume={2},
  pages={67--78},
  year={2014},
  publisher={MIT Press}
}

贡献

衷心感谢提供 JSNLI 数据集的吉越卓见、河原大辅和黑橋禎夫。