数据集:

Gholamreza/pquad

任务:

问答

语言:

fa

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original
英文

"pquad" 数据集卡片

PQuAD 描述

这是由 Gholamreza Dar 在Huggingface上非官方上传的数据集版本

数据集的原始存储库为 https://github.com/AUT-NLP/PQuAD

PQuAD是一个众包阅读理解数据集,用于波斯语。它包含80,000个问题及其答案,其中25%的问题是无法回答的。作为一个阅读理解数据集,它需要系统阅读一段文字,然后根据给定的问题从文字中回答。PQuAD的问题是基于波斯语维基百科文章生成的,涵盖了各种各样的主题。用于问题生成的文章经过了质量检查,并且包含少量非波斯语单词。

数据集拆分

数据集分为训练集、验证集和测试集,各个集合的统计数据如下:

+----------------------------+-------+------------+------+-------+
|                            | Train | Validation | Test | Total |
+----------------------------+-------+------------+------+-------+
|      Total Questions       | 63994 |    7976    | 8002 | 79972 |
|   Unanswerable Questions   | 15721 |    1981    | 1914 | 19616 |
| Mean # of paragraph tokens |  125  |    121     | 124  |  125  |
| Mean # of question tokens  |   10  |     11     |  11  |   10  |
|  Mean # of answer tokens   |   5   |     6      |  5   |   5   |
+----------------------------+-------+------------+------+-------+

鼓励工人在问题中使用改写的句子,并避免选择包含非波斯语单词的答案。另一组众包工人会验证测试集和验证集中的问题和答案,以确保其质量。如果可能,他们还会为测试集和验证集中的问题提供额外的答案。这有助于考虑到所有可能的答案类型,并对模型进行更好的评估。

PQuAD以JSON格式存储,由段落组成,每个段落链接到一组问题。问题的答案由答案的范围(在段落中的起点和终点)指定。此外,无法回答的问题标记为无法回答。

结果

测试集上估计的人类表现为F1值88.3%,准确度80.3%。我们使用两种预训练的基于transformer的语言模型进行了PQuAD的评估,分别是ParsBERT(Farahani et al., 2021)和XLM-RoBERTa(Conneau et al., 2020),以及一个注意力机制模型BiDAF(Levy et al., 2017),该模型用于机器阅读理解任务。

+-------------+------+------+-----------+-----------+-------------+
|    Model    |  EM  |  F1  | HasAns_EM | HasAns_F1 | NoAns_EM/F1 |
+-------------+------+------+-----------+-----------+-------------+
|     BNA     | 54.4 | 71.4 |    43.9   |    66.4   |     87.6    |
|   ParsBERT  | 68.1 | 82.0 |    61.5   |    79.8   |     89.0    |
| XLM-RoBERTa | 74.8 | 87.6 |    69.1   |    86.0   |     92.7    |
|    Human    | 80.3 | 88.3 |    74.9   |    85.6   |     96.8    |
+-------------+------+------+-----------+-----------+-------------+

许可证

PQuAD由Amirkabir科技园的Mabna Intelligent Computing和Amirkabir大学技术副总统办公室的自然语言处理实验室合作开发,并得到科技副总统的支持。通过发布这个数据集,我们希望促进对波斯语阅读理解的研究以及波斯语问答系统的开发。

本作品根据 Creative Commons Attribution-ShareAlike 4.0 International License 进行许可。

"pquad" 数据集卡片