数据集:

persiannlp/parsinlu_entailment

语言:

fa

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

expert-generated

预印本库:

arxiv:2012.06154
英文

PersiNLU(文本蕴含)数据集卡

数据集概述

波斯文本蕴含任务(判断sent1是否蕴含sent2)。这些问题部分翻译自SNLI数据集,部分由专家标注者生成。

支持的任务和排行榜

[需要更多信息]

语言

文本数据集为波斯文(fa)。

数据集结构

数据示例

以下是数据集中的一个示例:

{
  "sent1": "سالها است که کنگره در تلاش است تا اثربخشی مدیریت اطلاعات و فناوری را در دولت فدرال افزایش دهد.",
  "sent2": "کنگره بودجه ویژه ای برای مدیریت اطلاعات و فناوری در دولت فدرال دارد.",
  "label": "n",
  "category": "translation-train"
}

数据字段

  • sent1:第一个句子。
  • sent2:第二个句子。
  • source:问题是从MNLI翻译(translated)还是由母语使用者编写(natural)。
  • label:如果sent2是从sent1中蕴含(entailed)得来的则为e;如果sent2与sent1相矛盾则为c;如果两个句子是中性的则为n。

数据拆分

训练/验证/测试拆分包含756/271/1751个样本。

数据集创建

规划理由

详细信息请查看 the corresponding draft

源数据

持验数据收集和标准化

[需要更多信息]

谁是源语言生成者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集维护者

[需要更多信息]

许可信息

CC BY-NC-SA 4.0许可。

引用信息

@article{huggingface:dataset,
    title = {ParsiNLU: A Suite of Language Understanding Challenges for Persian},
    authors = {Khashabi, Daniel and Cohan, Arman and Shakeri, Siamak and Hosseini, Pedram and Pezeshkpour, Pouya and Alikhani, Malihe and Aminnaseri, Moin and Bitaab, Marzieh and Brahman, Faeze and Ghazarian, Sarik and others},
    year={2020}
    journal = {arXiv e-prints},
    eprint = {2012.06154},    
}

贡献者

感谢 @danyaljj 添加此数据集。