数据集:

newsph_nli

语言:

tl

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

machine-generated

源数据集:

original

预印本库:

arxiv:2010.11574
英文

NewsPH NLI 数据集卡片

数据集摘要

NewsPH NLI 是低资源菲律宾语句子蕴含的首个基准数据集。通过利用新闻文章的结构构建而成。包含了60万个前提-假设对,按照70-15-15的比例划分为训练集、验证集和测试集。

支持的任务和排行榜

[需要更多信息]

语言

该数据集包含了菲律宾语(他加禄语)的新闻文章,从所有重要的菲律宾在线新闻网站上抓取而来。

数据集结构

数据实例

示例数据: { "premise": "Alam ba ninyo ang ginawa ni Erap na noon ay lasing na lasing na rin?", "hypothesis": "Ininom niya ang alak na pinagpulbusan!", "label": "0" }

数据字段

[需要更多信息]

数据划分

包含了60万个前提-假设对,按照70-15-15的比例划分为训练集、验证集和测试集。

数据集创建

策划理由

我们提议使用新闻文章自动创建句子蕴含基准数据集,原因有两点。首先,新闻文章通常使用单句段落,这意味着新闻文章中的每个段落都限定为一句话。其次,新闻文章遵循“倒金字塔”结构,每个后续段落都是基于前面段落的前提构建的,最重要的信息在顶部,最不重要的在结尾。

数据源

初始数据收集和规范化

为了创建数据集,我们从菲律宾的所有重要新闻网站上抓取新闻文章。我们共收集了22,9571篇直接的新闻文章,然后对其进行简单预处理,以删除无关的Unicode字符并纠正少量拼写错误。为保留数据中的信息,不进行进一步的预处理。

数据源语言制造者是谁?

该数据集由De La Salle大学和菲律宾大学的Jan Christian, Blaise Cruz, Jose Kristian Resabal, James Lin, Dan John Velasco和Charibeth Cheng创建。

注释

注释过程

[需要更多信息]

注释者是谁?

Jan Christian Blaise Cruz, Jose Kristian Resabal, James Lin, Dan John Velasco和Charibeth Cheng

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[Jan Christian Blaise Cruz] (mailto: jan_christian_cruz@dlsu.edu.ph)

许可信息

[需要更多信息]

引用信息

@article{cruz2020investigating, title={Investigating the True Performance of Transformers in Low-Resource Languages: A Case Study in Automatic Corpus Creation}, author={Jan Christian Blaise Cruz and Jose Kristian Resabal and James Lin and Dan John Velasco and Charibeth Cheng}, journal={arXiv preprint arXiv:2010.11574}, year={2020}}

贡献

感谢 @anaerobeth 添加了该数据集。