数据集:
squad_kor_v2
任务:
问答子任务:
extractive-qa语言:
ko计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
crowdsourced许可:
cc-by-nd-4.0KorQuAD 2.0 是一个韩文问答数据集,共包含 100,000+ 个问答对。与标准的韩文问答数据集 KorQuAD 1.0 相比,KorQuAD 2.0 存在三个主要差异。首先,给定的文档是一个完整的维基百科页面,而不仅仅是一两段文字。其次,由于文档中还包含表格和列表,因此需要理解带有 HTML 标签的文档结构。最后,答案可以是一个长文本,不仅包括单词或短语单元,还包括段落、表格和列表。
问答
韩文
符合标准的 SQuAD 格式。每个问题只有一个答案
数据集中的一个示例如下所示:
{'answer': {'answer_start': 3873, 'html_answer_start': 16093, 'text': '20,890 표'}, 'context': '<!DOCTYPE html>\n<html>\n<head>\n<meta>\n<title>심규언 - 위키백과, 우리 모두의 백과사전</title>\n\n\n<link>\n.....[omitted]', 'id': '36615', 'question': '심규언은 17대 지방 선거에서 몇 표를 득표하였는가?', 'raw_html': '<!DOCTYPE html>\n<html c ...[omitted]', 'title': '심규언', 'url': 'https://ko.wikipedia.org/wiki/심규언'}
{'id': Value(dtype='string', id=None), 'title': Value(dtype='string', id=None), 'context': Value(dtype='string', id=None), 'question': Value(dtype='string', id=None), 'answer': {'text': Value(dtype='string', id=None), 'answer_start': Value(dtype='int32', id=None), 'html_answer_start': Value(dtype='int32', id=None)}, 'url': Value(dtype='string', id=None), 'raw_html': Value(dtype='string', id=None)}
[需要更多信息]
维基百科
原始数据收集和规范化[需要更多信息]
源语言生成者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@article{NODE09353166, author={Youngmin Kim,Seungyoung Lim;Hyunjeong Lee;Soyoon Park;Myungji Kim}, title={{KorQuAD 2.0: Korean QA Dataset for Web Document Machine Comprehension}}, booltitle={{Journal of KIISE 제47권 제6호}}, journal={{Journal of KIISE}}, volume={{47}}, issue={{6}}, publisher={The Korean Institute of Information Scientists and Engineers}, year={2020}, ISSN={{2383-630X}}, pages={577-586}, url={http://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE09353166}}
感谢 @cceyda 添加了这个数据集。