数据集:

Jiangjie/ekar_english

英文

ekar_english 数据集卡片

数据集概述

新!(2022年9月18日)E-KAR v1.1 正式发布(位于主分支),具有更高质量的英文数据集!在 v1.1 中,我们进一步改进了英文E-KAR的中文到英文翻译质量,在600多个问题和1000多个解释中进行了手动调整。您仍然可以在该仓库的v1.0分支中找到先前的版本(如论文中所述)。有关更多信息,请参阅 https://ekar-leaderboard.github.io

识别类比的能力是人类认知的基础。现有的用于测试单词类比的基准数据并不能揭示神经模型进行类比推理的底层过程。出于认为具有推理能力的模型应该是以正确的理由为基础的信念,我们提出了首个知识性可解释类比推理基准(E-KAR)。我们的基准数据集包括来自公务员考试的1,655个(中文)和1,251个(英文)问题,解决这些问题需要密集的背景知识。更重要的是,我们设计了一个自由文本解释方案,用于解释是否应该进行类比推理,并为每个问题和候选答案进行了手动注释。实证结果表明,对于一些最先进的模型来说,这个基准数据集对于解释生成和类比问题回答任务都具有很大挑战性,这引发了进一步的研究。

支持的任务和排行榜

  • 类比问答:数据集可用于训练多项选择类比推理模型。
  • 解释生成:数据集可用于生成自由文本解释以合理地解释类比推理。

该数据集支持两种任务模式:EASY模式和HARD模式:

  • EASY模式:查询解释可以作为输入的一部分。
  • HARD模式:输入中不允许使用解释。

语言

该数据集是英文的,由 its Chinese version 翻译而来。

数据集结构

数据实例

{
  "id": "982f17-en",
  "question": "plant:coal",
  "choices": {
    "label": [
      "A",
      "B",
      "C",
      "D"
    ],
    "text": [
      "white wine:aged vinegar",
      "starch:corn",
      "milk:yogurt",
      "pickled cabbage:cabbage"
    ]
  },
  "answerKey": "C",
  "explanation": [
    "\"plant\" is the raw material of \"coal\".",
    "both \"white wine\" and \"aged vinegar\" are brewed.",
    "\"starch\" is made of \"corn\", and the order of words is inconsistent with the query.",
    "\"yogurt\" is made from \"milk\".",
    "\"pickled cabbage\" is made of \"cabbage\", and the word order is inconsistent with the query."
  ],
  "relation": [
    [["plant", "coal", "R3.7"]],
    [["white wine", "aged vinegar", "R2.4"]],
    [["corn", "starch", "R3.7"]],
    [["milk", "yogurt", "R3.7"]],
    [["cabbage", "pickled cabbage", "R3.7"]]
  ]
}

数据字段

  • id:每个示例的字符串标识符。
  • question:查询术语。
  • choices:候选答案术语。
  • answerKey:正确答案。
  • explanation:查询(第一个)和候选答案(第二个到第五个)的解释。
  • relation:查询(第一个)和候选答案(第二个到第五个)的注释关系。

数据拆分

name train validation test
default 870 119 262
description blinded

数据集创建

策划理由

[需要更多信息]

源数据

Initial Data Collection and Normalization

[需要更多信息]

Who are the source language producers?

[需要更多信息]

注释

Annotation process

[需要更多信息]

Who are the annotators?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

该数据集的目的是帮助开发具有正确理由的类比推理系统。

偏见讨论

该数据集来源于中国的公务员考试,并进行了翻译。因此,尽管作者们试图删除或重写这些问题,但它仍然可能包含偏向中国文化的信息。

其他已知限制

  • 在E-KAR中,解释注释过程(而不是EG任务)大多是事后的,并且只反映推理的结果。人类以试错的方式解决类比问题,即调整被获得的源结构并尝试找到最适合所有候选答案的结构。因此,这些解释不能为中间推理提供监督。

  • E-KAR仅针对每个问题提供一个可行的解释,而实际上可能存在多个解释。

  • E-KAR的英文版本是机器翻译后由人工编辑的。尽管作者们已尽力保持翻译质量,但英文数据集中可能存在一些令人不满意的样本,例如特定于文化的样本,在翻译后含糊不清的样本等。

  • 附加信息

    数据集创建者

    该数据集最初由陈江杰(复旦大学,字节跳动)、徐睿(复旦大学)、傅子泉(Brain Technologies, Inc.)、石蔚(华南理工大学)、张新波(字节跳动)、孙昌智(字节跳动)及其在字节跳动和复旦大学的同事共同创建和策划。

    许可信息

    [需要更多信息]

    引用信息

    @inproceedings{chen-etal-2022-e,
        title = "{E}-{KAR}: A Benchmark for Rationalizing Natural Language Analogical Reasoning",
        author = "Chen, Jiangjie  and
          Xu, Rui  and
          Fu, Ziquan  and
          Shi, Wei  and
          Li, Zhongqiao  and
          Zhang, Xinbo  and
          Sun, Changzhi  and
          Li, Lei  and
          Xiao, Yanghua  and
          Zhou, Hao",
        booktitle = "Findings of the Association for Computational Linguistics: ACL 2022",
        month = may,
        year = "2022",
        address = "Dublin, Ireland",
        publisher = "Association for Computational Linguistics",
        url = "https://aclanthology.org/2022.findings-acl.311",
        pages = "3941--3955",
    }