FaQuAD-NLI 数据集卡片

数据集概要

FaQuAD 是一个葡萄牙语阅读理解数据集，采用了斯坦福问答数据集 (SQuAD) 的格式。它是使用具有挑战性的 SQuAD 格式的首个葡萄牙语阅读理解数据集。该数据集旨在解决巴西高等教育系统中存在的大量学术问题，其答案可以在可用的机构文件中找到。该数据集由来自巴西联邦大学的计算机科学学院的18个正式文件和与巴西高等教育系统相关的21个维基百科文章中的249个阅读段落组成，共包含900个问题。

FaQuAD-NLI 是 FaQuAD dataset 的修改版本，将问答任务重新用作问题和可能答案之间的文本蕴含任务。

支持的任务和排行榜

问答任务：该数据集可用于训练解决巴西高等教育机构领域的问答任务的模型。
文本蕴含任务：FaQuAD-NLI 可用于训练解决文本蕴含任务的模型，其中将问题和答案在问答对中分类为适合或不适合的。

语言

该数据集使用的是巴西葡萄牙语。

数据集结构

数据字段

文档索引：表示文档索引的整数值。
文档标题：包含文档标题的字符串。
段落索引：表示文档中段落索引的整数值。
问题：包含与段落相关的问题的字符串。
答案：包含与问题相关的答案的字符串。
标签：表示答案是否适合问题的整数值（0 或 1）。

数据拆分

数据集被拆分为三个子集：训练集、验证集和测试集。精心划分数据集以避免相同文档中的问题和答案对出现在多个拆分中。

贡献

感谢 @ruanchaves 提供此数据集。

作者:

ruanchaves

数据集大小:

33.63 KB