数据集:
newsph_nli
任务:
文本分类语言:
tl计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
machine-generated源数据集:
original预印本库:
arxiv:2010.11574许可:
license:unknownNewsPH NLI 是低资源菲律宾语句子蕴含的首个基准数据集。通过利用新闻文章的结构构建而成。包含了60万个前提-假设对,按照70-15-15的比例划分为训练集、验证集和测试集。
[需要更多信息]
该数据集包含了菲律宾语(他加禄语)的新闻文章,从所有重要的菲律宾在线新闻网站上抓取而来。
示例数据: { "premise": "Alam ba ninyo ang ginawa ni Erap na noon ay lasing na lasing na rin?", "hypothesis": "Ininom niya ang alak na pinagpulbusan!", "label": "0" }
[需要更多信息]
包含了60万个前提-假设对,按照70-15-15的比例划分为训练集、验证集和测试集。
我们提议使用新闻文章自动创建句子蕴含基准数据集,原因有两点。首先,新闻文章通常使用单句段落,这意味着新闻文章中的每个段落都限定为一句话。其次,新闻文章遵循“倒金字塔”结构,每个后续段落都是基于前面段落的前提构建的,最重要的信息在顶部,最不重要的在结尾。
为了创建数据集,我们从菲律宾的所有重要新闻网站上抓取新闻文章。我们共收集了22,9571篇直接的新闻文章,然后对其进行简单预处理,以删除无关的Unicode字符并纠正少量拼写错误。为保留数据中的信息,不进行进一步的预处理。
数据源语言制造者是谁?该数据集由De La Salle大学和菲律宾大学的Jan Christian, Blaise Cruz, Jose Kristian Resabal, James Lin, Dan John Velasco和Charibeth Cheng创建。
[需要更多信息]
注释者是谁?Jan Christian Blaise Cruz, Jose Kristian Resabal, James Lin, Dan John Velasco和Charibeth Cheng
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[Jan Christian Blaise Cruz] (mailto: jan_christian_cruz@dlsu.edu.ph)
[需要更多信息]
@article{cruz2020investigating, title={Investigating the True Performance of Transformers in Low-Resource Languages: A Case Study in Automatic Corpus Creation}, author={Jan Christian Blaise Cruz and Jose Kristian Resabal and James Lin and Dan John Velasco and Charibeth Cheng}, journal={arXiv preprint arXiv:2010.11574}, year={2020}}
感谢 @anaerobeth 添加了该数据集。