数据集:
ruanchaves/faquad-nli
任务:
问答子任务:
extractive-qa语言:
pt计算机处理:
monolingual大小:
n<1K语言创建人:
found批注创建人:
expert-generated源数据集:
extended|wikipedia许可:
cc-by-4.0FaQuAD 是一个葡萄牙语阅读理解数据集,采用了斯坦福问答数据集 (SQuAD) 的格式。它是使用具有挑战性的 SQuAD 格式的首个葡萄牙语阅读理解数据集。该数据集旨在解决巴西高等教育系统中存在的大量学术问题,其答案可以在可用的机构文件中找到。该数据集由来自巴西联邦大学的计算机科学学院的18个正式文件和与巴西高等教育系统相关的21个维基百科文章中的249个阅读段落组成,共包含900个问题。
FaQuAD-NLI 是 FaQuAD dataset 的修改版本,将问答任务重新用作问题和可能答案之间的文本蕴含任务。
该数据集使用的是巴西葡萄牙语。
数据集被拆分为三个子集:训练集、验证集和测试集。精心划分数据集以避免相同文档中的问题和答案对出现在多个拆分中。
感谢 @ruanchaves 提供此数据集。