数据集:
shunk031/jsnli
从 日本語 SNLI(JSNLI) データセット - KUROHASHI-CHU-MURAWAKI LAB 中翻译:
这个数据集是将自然语言推理 (NLI) 的标准基准数据集 SNLI 翻译成日语的版本。
所有注释都以日语为主要语言。
数据以 TSV 格式存储,每行表示一个标签、前提和假设的三元组。前提和假设由 JUMAN++ 进行词法分析。下面是一个例子。
经过将 SNLI 数据集进行机器翻译,然后对评估数据进行精确的众包过滤,对训练数据进行自动计算机过滤,构建了该数据集。数据集分为两种类型:未经任何过滤的训练数据和经过过滤后精度最高的训练数据。数据集大小为未过滤的训练数据 548,014 对,过滤后的训练数据 533,005 对,评估数据 3,916 对。详细信息请参考引用文献。
谁是标记员?有关此数据集的问题,请发送电子邮件至 nl-resource @ nlp.ist.i.kyoto-u.ac.jp。
本数据集采用与 SNLI 相同的许可证 CC BY-SA 4.0 。有关 SNLI 的许可信息,请参考引用文献。
@article{吉越卓見 2020 機械翻訳を用いた自然言語推論データセットの多言語化, title={機械翻訳を用いた自然言語推論データセットの多言語化}, author={吉越卓見 and 河原大輔 and 黒橋禎夫 and others}, journal={研究報告自然言語処理 (NL)}, volume={2020}, number={6}, pages={1--8}, year={2020} }
@inproceedings{bowman2015large, title={A large annotated corpus for learning natural language inference}, author={Bowman, Samuel and Angeli, Gabor and Potts, Christopher and Manning, Christopher D}, booktitle={Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing}, pages={632--642}, year={2015} }
@article{young2014image, title={From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions}, author={Young, Peter and Lai, Alice and Hodosh, Micah and Hockenmaier, Julia}, journal={Transactions of the Association for Computational Linguistics}, volume={2}, pages={67--78}, year={2014}, publisher={MIT Press} }
衷心感谢提供 JSNLI 数据集的吉越卓见、河原大辅和黑橋禎夫。