Czech Simple Question Answering Dataset 2.0 数据集卡

这是一个经过处理和过滤的现有数据集的适应版本。有关原始和更大的数据集，请参见数据集来源部分。

数据集描述

该数据包含基于捷克维基百科文章的问题和答案。每个问题都有一个（或多个）答案和作为证据的上下文的选定部分。大多数答案是抽取式的 - 即它们以完全相同的形式在上下文中存在。其余情况包括：

是/否问题
答案几乎以与文本中的形式不同的形式存在，但是词的形式进行了更改以适应问题（格变化等）
用自己的话回答（应该很少见，但事实并非如此）

数据集中的所有问题都可以从上下文中回答。少数问题有多个答案。有时这意味着它们中任何一个是正确的（例如，“Pacifik”或“Tichý oceán”都是太平洋的正确术语），有时这意味着它们全部在一起构成正确答案（例如，列奥纳多·达·芬奇是谁？[“画家”，“工程师”]）

总的示例数量约为：

训练集中有 6,250 个
验证集中有 570 个
测试集中有 850 个

数据集特征

每个示例包含：

item_id：数据集中的字符串id
上下文：包含答案的维基百科文章的“合理大”块（字符串）
问题：字符串
答案：所有答案的列表（字符串）。大多数情况下，长度为1的列表
证据文本：上下文的子字符串（通常是一句话），足以回答问题
证据开始：在上下文中的索引，使得 context [evidence_start：evidence_end] == evidence_text
证据结束：在上下文中的索引
发生情况：答案在证据中的（字典）出现情况的列表。每个答案在证据中使用了单词边界（正则表达式中的 \b）和区分大小写。如果未找到任何内容，则再次尝试但不区分大小写。如果未找到任何内容，则再次尝试但不区分大小写且不使用单词边界。此过程应该消除证据中“误报”的答案出现。

开始：在上下文中的索引
结束：在上下文中的索引
文本：所寻找的答案

url：到维基百科文章的链接
original_article：上下文取自的原始解析维基百科文章
question_type：问题的类型，其中之一：['ABBREVIATION'，'DATETIME'，'DENOTATION'，'ENTITY'，'LOCATION'，'NUMERIC'，'ORGANIZATION'，'OTHER'，'PERSON'，'YES_NO']
answer_type：答案的类型，其中之一：['ABBREVIATION'，'ADJ_PHRASE'，'CLAUSE'，'DATETIME'，'ENTITY'，'LOCATION'，'NUMERIC'，'OTHER'，'PERSON' ，'VERB_PHRASE']

数据集来源

该数据集是现有 SQAD 3.0 数据集的预处理版本。此适应版本包含（几乎）相同的数据，但转换为便捷的格式。还过滤掉了统计偏差，其中答案包含在文章的第一句中（原始数据集中约50％的所有数据，可能是由于数据收集过程引起的）。

引用

引用 original dataset 的作者：

@misc{11234/1-3069,
 title = {sqad 3.0},
 author = {Medve{\v d}, Marek and Hor{\'a}k, Ale{\v s}},
 url = {http://hdl.handle.net/11234/1-3069},
 note = {{LINDAT}/{CLARIAH}-{CZ} digital library at the Institute of Formal and Applied Linguistics ({{\'U}FAL}), Faculty of Mathematics and Physics, Charles University},
 copyright = {{GNU} Library or "Lesser" General Public License 3.0 ({LGPL}-3.0)},
 year = {2019}
}

作者:

fewshot-goes-multilingual

数据集大小:

172.31 MB