数据集:

fewshot-goes-multilingual/cs_squad-3.0

任务:

问答

子任务:

extractive-qa

语言:

cs

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

许可:

lgpl-3.0
英文

Czech Simple Question Answering Dataset 2.0 数据集卡

这是一个经过处理和过滤的现有数据集的适应版本。有关原始和更大的数据集,请参见数据集来源部分。

数据集描述

该数据包含基于捷克维基百科文章的问题和答案。每个问题都有一个(或多个)答案和作为证据的上下文的选定部分。大多数答案是抽取式的 - 即它们以完全相同的形式在上下文中存在。其余情况包括:

  • 是/否问题
  • 答案几乎以与文本中的形式不同的形式存在,但是词的形式进行了更改以适应问题(格变化等)
  • 用自己的话回答(应该很少见,但事实并非如此)

数据集中的所有问题都可以从上下文中回答。少数问题有多个答案。有时这意味着它们中任何一个是正确的(例如,“Pacifik”或“Tichý oceán”都是太平洋的正确术语),有时这意味着它们全部在一起构成正确答案(例如,列奥纳多·达·芬奇是谁?[“画家”,“工程师”])

总的示例数量约为:

  • 训练集中有 6,250 个
  • 验证集中有 570 个
  • 测试集中有 850 个

数据集特征

每个示例包含:

  • item_id:数据集中的字符串id
  • 上下文:包含答案的维基百科文章的“合理大”块(字符串)
  • 问题:字符串
  • 答案:所有答案的列表(字符串)。大多数情况下,长度为1的列表
  • 证据文本:上下文的子字符串(通常是一句话),足以回答问题
  • 证据开始:在上下文中的索引,使得 context [evidence_start:evidence_end] == evidence_text
  • 证据结束:在上下文中的索引
  • 发生情况:答案在证据中的(字典)出现情况的列表。每个答案在证据中使用了单词边界(正则表达式中的 \b)和区分大小写。如果未找到任何内容,则再次尝试但不区分大小写。如果未找到任何内容,则再次尝试但不区分大小写且不使用单词边界。此过程应该消除证据中“误报”的答案出现。
    • 开始:在上下文中的索引
    • 结束:在上下文中的索引
    • 文本:所寻找的答案
  • url:到维基百科文章的链接
  • original_article:上下文取自的原始解析维基百科文章
  • question_type:问题的类型,其中之一:['ABBREVIATION','DATETIME','DENOTATION','ENTITY','LOCATION','NUMERIC','ORGANIZATION','OTHER','PERSON','YES_NO']
  • answer_type:答案的类型,其中之一:['ABBREVIATION','ADJ_PHRASE','CLAUSE','DATETIME','ENTITY','LOCATION','NUMERIC','OTHER','PERSON' ,'VERB_PHRASE']

数据集来源

该数据集是现有 SQAD 3.0 数据集的预处理版本。此适应版本包含(几乎)相同的数据,但转换为便捷的格式。还过滤掉了统计偏差,其中答案包含在文章的第一句中(原始数据集中约50%的所有数据,可能是由于数据收集过程引起的)。

引用

引用 original dataset 的作者:

@misc{11234/1-3069,
 title = {sqad 3.0},
 author = {Medve{\v d}, Marek and Hor{\'a}k, Ale{\v s}},
 url = {http://hdl.handle.net/11234/1-3069},
 note = {{LINDAT}/{CLARIAH}-{CZ} digital library at the Institute of Formal and Applied Linguistics ({{\'U}FAL}), Faculty of Mathematics and Physics, Charles University},
 copyright = {{GNU} Library or "Lesser" General Public License 3.0 ({LGPL}-3.0)},
 year = {2019}
}