数据集:

NYTK/HuCoPA

英文

HuCoPA数据集卡

数据集摘要

这是匈牙利可选替代语料库(HuCoPA)的数据集卡,也是匈牙利语言理解评估基准套件HuLU的一部分。该语料库是通过翻译和重新注释原始的英文CoPA语料库(Roemmele等人,2011)而创建的。

支持的任务和排行榜

'常识推理''问答'

语言

本数据集仅包含匈牙利语,其BCP-47代码为hu-HU。

数据集结构

数据实例

对于每个实例,都有一个id、一个前提、一个问题('cause'或'effect')、两个替代方案和一个标签(1或2)。

一个示例:

{"idx": "1",
 "question": "cause",
 "label": "1",
 "premise": "A testem árnyékot vetett a fűre.",
 "choice1": "Felkelt a nap.",
 "choice2": "A füvet lenyírták."}

数据字段

  • id:实例的唯一ID,一个介于1和1000之间的整数;
  • question: "cause"或"effect"。它指示我们正在寻找何种因果关系:在"cause"的情况下,我们寻找可能是前提原因的更可信的替代方案。在"effect"的情况下,我们正在寻找与前提相关的可能的结果;
  • premise:前提,一个句子;
  • choice1:第一个替代方案,一个句子;
  • choice2:第二个替代方案,一个句子;
  • label:更可信的替代方案的编号(1或2)。

数据拆分

HuCoPA有三个拆分:训练集、验证集和测试集。

Dataset split Number of instances in the split
train 400
validation 100
test 500

测试数据是没有标签的。要评估您的模型,请与我们联系,或查看HuLU的网站以进行自动评估(此功能目前正在建设中)。

数据集创建

源数据

初始数据收集和规范化

该数据是CoPA语料库内容的翻译版本。每个句子都由人工翻译员进行翻译。每个翻译都经过人工检查并由另一位注释员进行进一步修正。

标注

标注过程

每个实例最初从CoPA数据集继承了原始标签。每个实例都由人工标注员进行注释。如果原始标签与人工标注员的标签不匹配,我们将手动编辑实例并为其分配最终标签。这一步骤是为了确保在翻译过程中因果关系没有被改变或丢失。

注释员是谁?

翻译员是母语为匈牙利语且具备英语能力的人士。标注员是具有一定语言背景的大学生。

附加信息

测试集的人类表现为96%(准确率)。

许可信息

HuCoPA使用BSD 2-Clause许可证发布。

版权所有(c)2010年,南加州大学。保留所有权利。

在源代码和二进制形式下,无论是否修改,只要满足以下条件,即可复制、分发和使用:

  • 必须保留上述版权声明、此条件列表和以下免责声明的源代码再分发行为中。

  • 无论是在二进制形式还是在与分发的文档和/或其他材料中,都必须复制上述版权声明、此条件列表和以下免责声明。

本软件按原样提供,不附带任何明示或暗示的保证,包括但不限于适销性和特定用途适应性的保证。在任何情况下,版权所有人或贡献者均不对任何直接、间接、偶然、特殊、示例性或后果性损害(包括但不限于替代商品或服务的购买、使用、数据或利润损失或业务中断)承担责任,无论是以合同责任、严格责任或侵权行为(包括疏忽或其他原因)产生的,即使事先已被告知发生此类损害的可能性。

引用信息

如果您使用此资源或其任何部分的文档,请引用:

Ligeti-Nagy, N., Ferenczi, G., Héja, E., Jelencsik-Mátyus, K., Laki, L. J., Vadász, N., Yang, Z. Gy.和Váradi, T.(2022年)“HuLU:magyar nyelvű benchmark adatbázi ki kptése a neurális nyelvmodellek kiértékelése céljából [HuLU:基于神经语言模型的匈牙利基准数据集]”。在:Berend, Gábor和Gábor Gosztolya和Veronika Vincze(编辑),第18届匈牙利计算语言学会议。JATEPress,塞格德。431–446。

@inproceedings{ligetinagy2022hulu,
  title={HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából},
  author={Ligeti-Nagy, N. and Ferenczi, G. and Héja, E. and Jelencsik-Mátyus, K. and Laki, L. J. and Vadász, N. and Yang, Z. Gy. and Váradi, T.},
  booktitle={XVIII. Magyar Számítógépes Nyelvészeti Konferencia},
  year={2022},
  editors = {Berend, Gábor and Gosztolya, Gábor and Vincze, Veronika},
  address = {Szeged},
  publisher = {JATEPress},
  pages = {431–446}
}

和:

Roemmele, M.,Bejan,C.和Gordon,A.(2011)可选替代的选择:常识因果推理的评估。AAAI春季关于常识推理的逻辑形式化研讨会,斯坦福大学,2011年3月21日至23日。

@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011},
  url={https://people.ict.usc.edu/~gordon/publications/AAAI-SPRING11A.PDF},
}

贡献

感谢 lnnoemi 添加这个数据集。