数据集:

squad_kor_v2

任务:

问答

子任务:

extractive-qa

语言:

ko

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced
英文

KorQuAD v2.1 数据集卡片

数据集摘要

KorQuAD 2.0 是一个韩文问答数据集,共包含 100,000+ 个问答对。与标准的韩文问答数据集 KorQuAD 1.0 相比,KorQuAD 2.0 存在三个主要差异。首先,给定的文档是一个完整的维基百科页面,而不仅仅是一两段文字。其次,由于文档中还包含表格和列表,因此需要理解带有 HTML 标签的文档结构。最后,答案可以是一个长文本,不仅包括单词或短语单元,还包括段落、表格和列表。

支持的任务和领先排行榜

问答

语言

韩文

数据集结构

符合标准的 SQuAD 格式。每个问题只有一个答案

数据实例

数据集中的一个示例如下所示:

{'answer': {'answer_start': 3873,
  'html_answer_start': 16093,
  'text': '20,890 표'},
 'context': '<!DOCTYPE html>\n<html>\n<head>\n<meta>\n<title>심규언 - 위키백과, 우리 모두의 백과사전</title>\n\n\n<link>\n.....[omitted]',
 'id': '36615',
 'question': '심규언은 17대 지방 선거에서 몇 표를 득표하였는가?',
 'raw_html': '<!DOCTYPE html>\n<html c ...[omitted]',
 'title': '심규언',
 'url': 'https://ko.wikipedia.org/wiki/심규언'}

数据字段

{'id': Value(dtype='string', id=None),
 'title': Value(dtype='string', id=None),
 'context': Value(dtype='string', id=None),
 'question': Value(dtype='string', id=None),
 'answer': {'text': Value(dtype='string', id=None),
  'answer_start': Value(dtype='int32', id=None),
  'html_answer_start': Value(dtype='int32', id=None)},
 'url': Value(dtype='string', id=None),
 'raw_html': Value(dtype='string', id=None)}

数据拆分

  • 训练集:83486
  • 验证集:10165

数据集创建

策划理由

[需要更多信息]

源数据

维基百科

原始数据收集和规范化

[需要更多信息]

源语言生成者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

CC BY-ND 2.0 KR

引用信息

@article{NODE09353166,
    author={Youngmin Kim,Seungyoung Lim;Hyunjeong Lee;Soyoon Park;Myungji Kim},
    title={{KorQuAD 2.0: Korean QA Dataset for Web Document Machine Comprehension}},
    booltitle={{Journal of KIISE 제47권 제6호}},
    journal={{Journal of KIISE}},
    volume={{47}},
    issue={{6}},
    publisher={The Korean Institute of Information Scientists and Engineers},
    year={2020},
    ISSN={{2383-630X}},
    pages={577-586},
    url={http://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE09353166}}

贡献

感谢 @cceyda 添加了这个数据集。