数据集:

persiannlp/parsinlu_query_paraphrasing

语言:

fa

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

expert-generated

预印本库:

arxiv:2012.06154
英文

PersiNLU数据集卡片(查询重述)

数据集简介

这是一个波斯语查询重述任务(判断两个问题是否为重述)。这些问题部分来自Google自动补全,部分来自Quora重述数据集的翻译。

支持的任务和排行榜

[需要更多信息]

语言

该文本数据集为波斯语(fa)。

数据集结构

数据实例

这是数据集中的一个示例:

{
  "q1": "اعمال حج تمتع از چه روزی شروع میشود؟",
  "q2": "ویار از چه روزی شروع میشود؟",
  "label": "0",
  "category": "natural"
}

数据字段

  • q1:第一个问题。
  • q2:第二个问题。
  • category:问题是从Quora中提取的(qqp)还是从Google自动补全中提取的(natural)。
  • label:如果问题是重述则为1;否则为0。

数据分割

训练集/开发集/测试集包含1830/898/1916个样本。

数据集创建

策划理由

详情请查看 the corresponding draft

源数据

初始数据采集和规范化

[需要更多信息]

源语言的生成者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

CC BY-NC-SA 4.0许可

引用信息

@article{huggingface:dataset,
    title = {ParsiNLU: A Suite of Language Understanding Challenges for Persian},
    authors = {Khashabi, Daniel and Cohan, Arman and Shakeri, Siamak and Hosseini, Pedram and Pezeshkpour, Pouya and Alikhani, Malihe and Aminnaseri, Moin and Bitaab, Marzieh and Brahman, Faeze and Ghazarian, Sarik and others},
    year={2020}
    journal = {arXiv e-prints},
    eprint = {2012.06154},    
}

贡献

感谢 @danyaljj 添加了这个数据集。