数据集:
SkelterLabsInc/JaQuAD
任务:
问答子任务:
extractive-qa语言:
ja计算机处理:
monolingual大小:
10K<n<100K批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:2202.01764许可:
cc-by-sa-3.0JaQuAD(日本问答数据集)于2022年发布,是一个为日本机器阅读理解而创建的人工注释数据集。JaQuAD旨在提供一个类似于SQuAD的日语QA数据集。JaQuAD包含39,696个问答对。问题和答案由人工注释者手动策划,上下文采用日本维基百科文章收集。在JaQuAD上微调 BERT-Japanese 模型可获得78.92%的F1得分和63.38%的精确匹配得分。
日语 (ja)
'validation' 示例:
{ "id": "de-001-00-000", "title": "イタセンパラ", "context": "イタセンパラ(板鮮腹、Acheilognathuslongipinnis)は、コイ科のタナゴ亜科タナゴ属に分類される淡水>魚の一種。\n別名はビワタナゴ(琵琶鱮、琵琶鰱)。", "question": "ビワタナゴの正式名称は何?", "question_type": "Multiple sentence reasoning", "answers": { "text": "イタセンパラ", "answer_start": 0, "answer_type": "Object", }, },
JaQuAD包含三个数据集:train、validation和test。它们由互不相交的维基百科文章集合创建,其中test集尚未公开发布。下表显示每个数据集的统计信息。
Set | Number of Articles | Number of Contexts | Number of Questions |
---|---|---|---|
Train | 691 | 9713 | 31748 |
Validation | 101 | 1431 | 3939 |
Test | 109 | 1479 | 4009 |
JaQuAD数据集由 Skelter Labs 创建,旨在提供一个类似于SQuAD的日语QA数据集。问题是原创的,基于日本维基百科文章。
上下文使用以下数据源的文章: Japanese Wikipedia 。88.7%的文章来自经过策划的日本高质量维基百科文章列表,例如 featured articles 和 good articles 。
维基百科文章被分段为一个或多个段落作为上下文。注释(问题和答案跨度)由熟练的日语使用者编写,包括母语和非母语者。注释者会提供一个上下文,并被要求根据上下文中的信息生成非平凡的问题。
该数据集不包含个人或敏感信息,数据集注释者已对其进行了手动验证。
用户应考虑到这些文章是从维基百科文章中采样的,但并不代表所有维基百科文章。
尚未调查该数据集的社会偏见。
尚未调查该数据集的社会偏见。文章和问题的选择是基于质量和多样性的。
JaQuAD数据集存在以下限制:
该数据集尚未完成。如果您在JaQuAD中发现任何错误,请与我们联系。
Skelter Labs: https://skelterlabs.com/
JaQuAD数据集使用 CC BY-SA 3.0 许可证授权。
@misc{so2022jaquad, title={{JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension}}, author={ByungHoon So and Kyuhong Byun and Kyungwon Kang and Seongjin Cho}, year={2022}, eprint={2202.01764}, archivePrefix={arXiv}, primaryClass={cs.CL} }
本工作得到 TPU Research Cloud (TRC) program 的支持。我们使用TRC提供的云TPU来训练模型。我们还感谢生成JaQuAD的注释者。