数据集:

TUKE-DeutscheTelekom/skquad

英文

数据集卡片:[数据集名称]

数据集摘要

SK-QuAD是斯洛伐克语的第一个问答数据集。它是手动注释的,因此没有机器翻译引起的失真。该数据集在主题上具有多样性 - 与SQuAD没有重叠 - 它带来了新的知识。它通过了第二轮注释 - 每个问题和答案至少被两个注释者查看过。

支持的任务和排行榜

  • 问答
  • 文档检索

语言

  • 斯洛伐克语

数据集结构

squad_v2
  • 下载的数据集文件大小:44.34 MB
  • 生成的数据集大小:122.57 MB
  • 总磁盘使用量:166.91 MB
  • '验证集'的示例如下所示。
This example was too long and was cropped:
{
    "answers": {
        "answer_start": [94, 87, 94, 94],
        "text": ["10th and 11th centuries", "in the 10th and 11th centuries", "10th and 11th centuries", "10th and 11th centuries"]
    },
    "context": "\"The Normans (Norman: Nourmands; French: Normands; Latin: Normanni) were the people who in the 10th and 11th centuries gave thei...",
    "id": "56ddde6b9a695914005b9629",
    "question": "When were the Normans in Normandy?",
    "title": "Normans"
}

数据字段

所有拆分的数据字段相同。

squad_v2
  • id:字符串特征。
  • title:字符串特征。
  • context:字符串特征。
  • question:字符串特征。
  • answers:包含的字典特征:
    • text:字符串特征。
    • answer_start:int32 特征。

数据拆分

Train Dev Translated
Documents 8,377 940 442
Paragraphs 22,062 2,568 18,931
Questions 81,582 9,583 120,239
Answers 65,839 7,822 79,978
Unanswerable 15,877 1,784 40,261

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的创作者?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

  • Deutsche Telekom Systems Solutions Slovakia
  • Technical Univesity of Košice

许可信息

Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)

引用信息

[需要更多信息]

贡献者

感谢 @github-username 添加了该数据集。