数据集:

persiannlp/parsinlu_reading_comprehension

任务:

问答

子任务:

extractive-qa

语言:

fa

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

expert-generated

预印本库:

arxiv:2012.06154
英文

PersiNLU(阅读理解)数据集卡片

数据集摘要

这是一个波斯阅读理解任务(根据问题和上下文段落生成答案)。问题是使用Google自动补充功能提取的,答案和相应的证据文档是由母语为波斯语的人手动注释的。

支持的任务和排行榜

[需要更多信息]

语言

文本数据集是波斯语(fa)。

数据集结构

数据实例

这是数据集中的一个示例:

{
    'question': 'پیامبر در چه سالی به پیامبری رسید؟', 
    'url': 'https://fa.wikipedia.org/wiki/%D9%85%D8%AD%D9%85%D8%AF', 
    'passage': 'محمد که از روش زندگی مردم مکه ناخشنود بود، گهگاه در غار حرا در یکی از کوه\u200cهای اطراف آن دیار به تفکر و عبادت می\u200cپرداخت. به باور مسلمانان، محمد در همین مکان و در حدود ۴۰ سالگی از طرف خدا به پیامبری برگزیده، و وحی بر او فروفرستاده شد. در نظر آنان، دعوت محمد همانند دعوت دیگر پیامبرانِ کیش یکتاپرستی مبنی بر این بود که خداوند (الله) یکتاست و تسلیم شدن برابر خدا راه رسیدن به اوست.', 
    'answers': [
        {'answer_start': 160, 'answer_text': 'حدود ۴۰ سالگی'}
     ]
}

数据字段

  • question:通过Google自动补充获取的问题。
  • passage:包含答案的段落。
  • url:获取段落的URL。
  • answers:答案的列表,包含答案的字符串和答案的索引。

数据拆分

训练/测试拆分包含600/575个样本。

数据集创建

策划理由

问题通过Google自动补充功能收集。答案由母语为波斯语的人进行了注释。有关更多详情,请查看 the corresponding draft

源数据

初始数据收集和标准化

[需要更多信息]

谁是源语言的制作者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

CC BY-NC-SA 4.0许可协议

引用信息

@article{huggingface:dataset,
    title = {ParsiNLU: A Suite of Language Understanding Challenges for Persian},
    authors = {Khashabi, Daniel and Cohan, Arman and Shakeri, Siamak and Hosseini, Pedram and Pezeshkpour, Pouya and Alikhani, Malihe and Aminnaseri, Moin and Bitaab, Marzieh and Brahman, Faeze and Ghazarian, Sarik and others},
    year={2020}
    journal = {arXiv e-prints},
    eprint = {2012.06154},    
}

贡献

感谢 @danyaljj 添加了这个数据集。