数据集:
fewshot-goes-multilingual/cs_squad-3.0
任务:
问答子任务:
extractive-qa语言:
cs计算机处理:
monolingual大小:
1K<n<10K语言创建人:
crowdsourced批注创建人:
crowdsourced源数据集:
original许可:
lgpl-3.0这是一个经过处理和过滤的现有数据集的适应版本。有关原始和更大的数据集,请参见数据集来源部分。
该数据包含基于捷克维基百科文章的问题和答案。每个问题都有一个(或多个)答案和作为证据的上下文的选定部分。大多数答案是抽取式的 - 即它们以完全相同的形式在上下文中存在。其余情况包括:
数据集中的所有问题都可以从上下文中回答。少数问题有多个答案。有时这意味着它们中任何一个是正确的(例如,“Pacifik”或“Tichý oceán”都是太平洋的正确术语),有时这意味着它们全部在一起构成正确答案(例如,列奥纳多·达·芬奇是谁?[“画家”,“工程师”])
总的示例数量约为:
每个示例包含:
该数据集是现有 SQAD 3.0 数据集的预处理版本。此适应版本包含(几乎)相同的数据,但转换为便捷的格式。还过滤掉了统计偏差,其中答案包含在文章的第一句中(原始数据集中约50%的所有数据,可能是由于数据收集过程引起的)。
引用 original dataset 的作者:
@misc{11234/1-3069, title = {sqad 3.0}, author = {Medve{\v d}, Marek and Hor{\'a}k, Ale{\v s}}, url = {http://hdl.handle.net/11234/1-3069}, note = {{LINDAT}/{CLARIAH}-{CZ} digital library at the Institute of Formal and Applied Linguistics ({{\'U}FAL}), Faculty of Mathematics and Physics, Charles University}, copyright = {{GNU} Library or "Lesser" General Public License 3.0 ({LGPL}-3.0)}, year = {2019} }