数据集:

Jiangjie/ekar_chinese

英文

ekar_chinese的数据集卡片

数据集摘要

新发布!(2022年9月18日)E-KAR v1.1正式发布(位于主要分支),具有更高质量的英文数据集!在v1.1中,我们进一步改进了英文E-KAR的中译英翻译质量,手动调整了600多个问题和1000多个解释。您仍然可以在存储库的v1.0分支中找到以前的版本(与论文中相同)。有关更多信息,请参阅 https://ekar-leaderboard.github.io

识别类比能力是人类认知的基础。现有的测试词类比的基准不会揭示神经模型类推推理的底层过程。我们坚信,具备推理能力的模型应以正确的原因得到正确的结果,因此我们提出了首个具有解释性知识密集型类比推理基准(E-KAR)。我们的基准包括1655个(中文)和1251个(英文)来自公务员考试的问题,解决这些问题需要丰富的背景知识。更重要的是,我们设计了一个自由文本解释方案,用于解释是否应该进行类比推理,并为每个问题和候选答案手动注释。实证结果表明,这个基准对于部分最先进的模型来说非常具有挑战性,无论是对于解释生成还是类比问题回答任务,这都需要进一步研究。

支持的任务和排行榜

  • 类比问答:可以使用该数据集训练模型进行多项选择类比推理。
  • 解释生成:可以使用该数据集生成自由文本解释以合理化类比推理。

此数据集支持两种任务模式:简单模式和困难模式:

  • 简单模式:可以将查询解释作为输入的一部分。
  • 困难模式:禁止将解释作为输入的一部分。

语言

该数据集使用中文编写,其中 English version

数据集结构

数据实例

{
  "id": "982f17-en",
  "question": "plant:coal",
  "choices": {
    "label": [
      "A",
      "B",
      "C",
      "D"
    ],
    "text": [
      "white wine:aged vinegar",
      "starch:corn",
      "milk:yogurt",
      "pickled cabbage:cabbage"
    ]
  },
  "answerKey": "C",
  "explanation": [
    "\"plant\" is the raw material of \"coal\".",
    "both \"white wine\" and \"aged vinegar\" are brewed.",
    "\"starch\" is made of \"corn\", and the order of words is inconsistent with the query.",
    "\"yogurt\" is made from \"milk\".",
    "\"pickled cabbage\" is made of \"cabbage\", and the word order is inconsistent with the query."
  ],
  "relation": [
    [["plant", "coal", "R3.7"]],
    [["white wine", "aged vinegar", "R2.4"]],
    [["corn", "starch", "R3.7"]],
    [["milk", "yogurt", "R3.7"]],
    [["cabbage", "pickled cabbage", "R3.7"]]
  ]
}

数据字段

  • id:每个示例的字符串标识符。
  • question:查询术语。
  • choices:候选答案术语。
  • answerKey:正确答案。
  • explanation:查询(第一个)和候选答案(第二至第五个)的解释。
  • relation:查询(第一个)和候选答案(第二至第五个)的注释关系。

数据拆分

name train validation test
default 1155 165 335
description blinded

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言生成者?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

该数据集的目的是帮助开发能以正确原因得出推理结果的类比推理系统。

偏见讨论

该数据集是从中国公务员考试中获取和翻译的,因此可能包含对中国文化有偏见的信息。

其他已知限制

  • E-KAR中的解释注释过程(不是EG任务)主要是事后进行的,并只反映了推理的结果。人类解决类比问题通常是通过试错的方式,即调整推理出的源结构,并尝试找到最适合所有候选答案的结构。因此,这种解释不能为中间推理提供监督。

  • E-KAR只提供了每个问题的一个可行解释,而可能存在其他解释。

  • 其他信息

    数据集策划者

    该数据集最初由陈江杰(复旦大学,字节跳动)、许睿(复旦大学)、傅子权(Brain Technologies, Inc.)、施炜(南方科技大学)、张新波(字节跳动)、孙长志(字节跳动)和字节跳动和复旦大学的其他同事共同创建和策划。

    许可信息

    [需要更多信息]

    引用信息

    @inproceedings{chen-etal-2022-e,
        title = "{E}-{KAR}: A Benchmark for Rationalizing Natural Language Analogical Reasoning",
        author = "Chen, Jiangjie  and
          Xu, Rui  and
          Fu, Ziquan  and
          Shi, Wei  and
          Li, Zhongqiao  and
          Zhang, Xinbo  and
          Sun, Changzhi  and
          Li, Lei  and
          Xiao, Yanghua  and
          Zhou, Hao",
        booktitle = "Findings of the Association for Computational Linguistics: ACL 2022",
        month = may,
        year = "2022",
        address = "Dublin, Ireland",
        publisher = "Association for Computational Linguistics",
        url = "https://aclanthology.org/2022.findings-acl.311",
        pages = "3941--3955",
    }