数据集:
Gholamreza/pquad
任务:
问答语言:
fa计算机处理:
monolingual大小:
10K<n<100K语言创建人:
crowdsourced批注创建人:
crowdsourced源数据集:
original许可:
cc-by-sa-4.0这是由 Gholamreza Dar 在Huggingface上非官方上传的数据集版本
数据集的原始存储库为 https://github.com/AUT-NLP/PQuAD
PQuAD是一个众包阅读理解数据集,用于波斯语。它包含80,000个问题及其答案,其中25%的问题是无法回答的。作为一个阅读理解数据集,它需要系统阅读一段文字,然后根据给定的问题从文字中回答。PQuAD的问题是基于波斯语维基百科文章生成的,涵盖了各种各样的主题。用于问题生成的文章经过了质量检查,并且包含少量非波斯语单词。
数据集分为训练集、验证集和测试集,各个集合的统计数据如下:
+----------------------------+-------+------------+------+-------+ | | Train | Validation | Test | Total | +----------------------------+-------+------------+------+-------+ | Total Questions | 63994 | 7976 | 8002 | 79972 | | Unanswerable Questions | 15721 | 1981 | 1914 | 19616 | | Mean # of paragraph tokens | 125 | 121 | 124 | 125 | | Mean # of question tokens | 10 | 11 | 11 | 10 | | Mean # of answer tokens | 5 | 6 | 5 | 5 | +----------------------------+-------+------------+------+-------+
鼓励工人在问题中使用改写的句子,并避免选择包含非波斯语单词的答案。另一组众包工人会验证测试集和验证集中的问题和答案,以确保其质量。如果可能,他们还会为测试集和验证集中的问题提供额外的答案。这有助于考虑到所有可能的答案类型,并对模型进行更好的评估。
PQuAD以JSON格式存储,由段落组成,每个段落链接到一组问题。问题的答案由答案的范围(在段落中的起点和终点)指定。此外,无法回答的问题标记为无法回答。
测试集上估计的人类表现为F1值88.3%,准确度80.3%。我们使用两种预训练的基于transformer的语言模型进行了PQuAD的评估,分别是ParsBERT(Farahani et al., 2021)和XLM-RoBERTa(Conneau et al., 2020),以及一个注意力机制模型BiDAF(Levy et al., 2017),该模型用于机器阅读理解任务。
+-------------+------+------+-----------+-----------+-------------+ | Model | EM | F1 | HasAns_EM | HasAns_F1 | NoAns_EM/F1 | +-------------+------+------+-----------+-----------+-------------+ | BNA | 54.4 | 71.4 | 43.9 | 66.4 | 87.6 | | ParsBERT | 68.1 | 82.0 | 61.5 | 79.8 | 89.0 | | XLM-RoBERTa | 74.8 | 87.6 | 69.1 | 86.0 | 92.7 | | Human | 80.3 | 88.3 | 74.9 | 85.6 | 96.8 | +-------------+------+------+-----------+-----------+-------------+
PQuAD由Amirkabir科技园的Mabna Intelligent Computing和Amirkabir大学技术副总统办公室的自然语言处理实验室合作开发,并得到科技副总统的支持。通过发布这个数据集,我们希望促进对波斯语阅读理解的研究以及波斯语问答系统的开发。
本作品根据 Creative Commons Attribution-ShareAlike 4.0 International License 进行许可。