数据集:

SkelterLabsInc/JaQuAD

任务:

问答

子任务:

extractive-qa

语言:

ja

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced found

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:2202.01764
英文

JaQuAD 数据集卡片

数据集概要

JaQuAD(日本问答数据集)于2022年发布,是一个为日本机器阅读理解而创建的人工注释数据集。JaQuAD旨在提供一个类似于SQuAD的日语QA数据集。JaQuAD包含39,696个问答对。问题和答案由人工注释者手动策划,上下文采用日本维基百科文章收集。在JaQuAD上微调 BERT-Japanese 模型可获得78.92%的F1得分和63.38%的精确匹配得分。

支持的任务

  • 抽取型问答:该数据集适用于抽取型问答任务。

语言

日语 (ja)

数据集结构

数据实例

  • 数据集文件大小:24.6 MB
  • 生成的数据集大小:48.6 MB
  • 总磁盘使用量:73.2 MB

'validation' 示例:

{
    "id": "de-001-00-000",
    "title": "イタセンパラ",
    "context": "イタセンパラ(板鮮腹、Acheilognathuslongipinnis)は、コイ科のタナゴ亜科タナゴ属に分類される淡水>魚の一種。\n別名はビワタナゴ(琵琶鱮、琵琶鰱)。",
    "question": "ビワタナゴの正式名称は何?",
    "question_type": "Multiple sentence reasoning",
    "answers": {
        "text": "イタセンパラ",
        "answer_start": 0,
        "answer_type": "Object",
    },
},

数据字段

  • id:字符串特征。
  • title:字符串特征。
  • context:字符串特征。
  • question:字符串特征。
  • question_type:字符串特征。
  • answers:包含以下内容的字典特征:
    • text:字符串特征。
    • answer_start:整型特征。
    • answer_type:字符串特征。

数据切分

JaQuAD包含三个数据集:train、validation和test。它们由互不相交的维基百科文章集合创建,其中test集尚未公开发布。下表显示每个数据集的统计信息。

Set Number of Articles Number of Contexts Number of Questions
Train 691 9713 31748
Validation 101 1431 3939
Test 109 1479 4009

数据集创建

策划理由

JaQuAD数据集由 Skelter Labs 创建,旨在提供一个类似于SQuAD的日语QA数据集。问题是原创的,基于日本维基百科文章。

源数据

上下文使用以下数据源的文章: Japanese Wikipedia 。88.7%的文章来自经过策划的日本高质量维基百科文章列表,例如 featured articles good articles

注释

维基百科文章被分段为一个或多个段落作为上下文。注释(问题和答案跨度)由熟练的日语使用者编写,包括母语和非母语者。注释者会提供一个上下文,并被要求根据上下文中的信息生成非平凡的问题。

个人和敏感信息

该数据集不包含个人或敏感信息,数据集注释者已对其进行了手动验证。

使用数据的注意事项

用户应考虑到这些文章是从维基百科文章中采样的,但并不代表所有维基百科文章。

数据集的社会影响

尚未调查该数据集的社会偏见。

偏见讨论

尚未调查该数据集的社会偏见。文章和问题的选择是基于质量和多样性的。

其他已知限制

JaQuAD数据集存在以下限制:

  • 大部分是短答案。
  • 假设使用相应上下文可以回答问题。

该数据集尚未完成。如果您在JaQuAD中发现任何错误,请与我们联系。

其他信息

数据集策划者

Skelter Labs: https://skelterlabs.com/

许可信息

JaQuAD数据集使用 CC BY-SA 3.0 许可证授权。

引用信息

@misc{so2022jaquad,
      title={{JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension}},
      author={ByungHoon So and Kyuhong Byun and Kyungwon Kang and Seongjin Cho},
      year={2022},
      eprint={2202.01764},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

致谢

本工作得到 TPU Research Cloud (TRC) program 的支持。我们使用TRC提供的云TPU来训练模型。我们还感谢生成JaQuAD的注释者。