数据集:

parsinlu_reading_comprehension

任务:

问答

子任务:

extractive-qa

语言:

fa

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

expert-generated

预印本库:

arxiv:2012.06154
英文

PersiNLU(阅读理解)数据集卡片

数据集摘要

这是一个波斯语阅读理解任务(给定问题和上下文段落生成答案)。问题是通过使用谷歌自动完成功能进行挖掘,答案和相应的证据文档由母语为波斯语的人手动注释。

支持的任务和排行榜

[需要更多信息]

语言

该文本数据集为波斯语(fa)。

数据集结构

数据实例

这是数据集中的一个示例:

{
    'question': 'پیامبر در چه سالی به پیامبری رسید؟', 
    'url': 'https://fa.wikipedia.org/wiki/%D9%85%D8%AD%D9%85%D8%AF', 
    'passage': 'محمد که از روش زندگی مردم مکه ناخشنود بود، گهگاه در غار حرا در یکی از کوه\u200cهای اطراف آن دیار به تفکر و عبادت می\u200cپرداخت. به باور مسلمانان، محمد در همین مکان و در حدود ۴۰ سالگی از طرف خدا به پیامبری برگزیده، و وحی بر او فروفرستاده شد. در نظر آنان، دعوت محمد همانند دعوت دیگر پیامبرانِ کیش یکتاپرستی مبنی بر این بود که خداوند (الله) یکتاست و تسلیم شدن برابر خدا راه رسیدن به اوست.', 
    'answers': [
        {'answer_start': 160, 'answer_text': 'حدود ۴۰ سالگی'}
     ]
}

数据字段

  • 问题:通过使用谷歌自动完成功能进行挖掘的问题。
  • 段落:包含答案的段落。
  • url:获取段落的网址。
  • 答案:包含字符串的答案列表,其中包含字段answer_start和answer_text的答案索引。请注意,在测试集中,有些answer_start值缺失,被替换为-1。

数据拆分

训练/测试拆分包含600/575个样本。

数据集创建

策划理由

问题是通过谷歌自动完成功能收集的。答案由母语为波斯语的人进行注释。有关更多详细信息,请查看 the corresponding draft

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的制作者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

仅供研究用途提供数据集。有关详细信息,请查看数据集许可证。

附加信息

数据集策划者

[需要更多信息]

许可信息

CC BY-NC-SA 4.0许可证

引用信息

@article{huggingface:dataset,
    title = {ParsiNLU: A Suite of Language Understanding Challenges for Persian},
    authors = {Khashabi, Daniel and Cohan, Arman and Shakeri, Siamak and Hosseini, Pedram and Pezeshkpour, Pouya and Alikhani, Malihe and Aminnaseri, Moin and Bitaab, Marzieh and Brahman, Faeze and Ghazarian, Sarik and others},
    year={2020}
    journal = {arXiv e-prints},
    eprint = {2012.06154},    
}

贡献者

感谢 @danyaljj 添加此数据集。