数据集:

NYTK/HuCoPA

任务:

task_categories:other

语言:

计算机处理:

monolingual

大小:

size_categories:unknown

语言创建人:

found expert-generated

批注创建人:

found

源数据集:

extended|other

其他:

commonsense-reasoning

许可:

bsd-2-clause

数据集介绍文件清单

英文

HuCoPA数据集卡

数据集摘要

这是匈牙利可选替代语料库（HuCoPA）的数据集卡，也是匈牙利语言理解评估基准套件HuLU的一部分。该语料库是通过翻译和重新注释原始的英文CoPA语料库（Roemmele等人，2011）而创建的。

支持的任务和排行榜

'常识推理''问答'

语言

本数据集仅包含匈牙利语，其BCP-47代码为hu-HU。

数据集结构

数据实例

对于每个实例，都有一个id、一个前提、一个问题（'cause'或'effect'）、两个替代方案和一个标签（1或2）。

一个示例：

{"idx": "1",
 "question": "cause",
 "label": "1",
 "premise": "A testem árnyékot vetett a fűre.",
 "choice1": "Felkelt a nap.",
 "choice2": "A füvet lenyírták."}

数据字段

id：实例的唯一ID，一个介于1和1000之间的整数；
question: "cause"或"effect"。它指示我们正在寻找何种因果关系：在"cause"的情况下，我们寻找可能是前提原因的更可信的替代方案。在"effect"的情况下，我们正在寻找与前提相关的可能的结果；
premise：前提，一个句子；
choice1：第一个替代方案，一个句子；
choice2：第二个替代方案，一个句子；
label：更可信的替代方案的编号（1或2）。

数据拆分

HuCoPA有三个拆分：训练集、验证集和测试集。

Dataset split	Number of instances in the split
train	400
validation	100
test	500

测试数据是没有标签的。要评估您的模型，请与我们联系，或查看HuLU的网站以进行自动评估（此功能目前正在建设中）。

数据集创建

源数据

初始数据收集和规范化

该数据是CoPA语料库内容的翻译版本。每个句子都由人工翻译员进行翻译。每个翻译都经过人工检查并由另一位注释员进行进一步修正。

标注

标注过程

每个实例最初从CoPA数据集继承了原始标签。每个实例都由人工标注员进行注释。如果原始标签与人工标注员的标签不匹配，我们将手动编辑实例并为其分配最终标签。这一步骤是为了确保在翻译过程中因果关系没有被改变或丢失。

注释员是谁？

翻译员是母语为匈牙利语且具备英语能力的人士。标注员是具有一定语言背景的大学生。

附加信息

测试集的人类表现为96%（准确率）。

许可信息

HuCoPA使用BSD 2-Clause许可证发布。

在源代码和二进制形式下，无论是否修改，只要满足以下条件，即可复制、分发和使用：

必须保留上述版权声明、此条件列表和以下免责声明的源代码再分发行为中。
无论是在二进制形式还是在与分发的文档和/或其他材料中，都必须复制上述版权声明、此条件列表和以下免责声明。

引用信息

如果您使用此资源或其任何部分的文档，请引用：

Ligeti-Nagy, N., Ferenczi, G., Héja, E., Jelencsik-Mátyus, K., Laki, L. J., Vadász, N., Yang, Z. Gy.和Váradi, T.（2022年）“HuLU：magyar nyelvű benchmark adatbázi ki kptése a neurális nyelvmodellek kiértékelése céljából [HuLU：基于神经语言模型的匈牙利基准数据集]”。在：Berend, Gábor和Gábor Gosztolya和Veronika Vincze（编辑），第18届匈牙利计算语言学会议。JATEPress，塞格德。431–446。

@inproceedings{ligetinagy2022hulu,
  title={HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából},
  author={Ligeti-Nagy, N. and Ferenczi, G. and Héja, E. and Jelencsik-Mátyus, K. and Laki, L. J. and Vadász, N. and Yang, Z. Gy. and Váradi, T.},
  booktitle={XVIII. Magyar Számítógépes Nyelvészeti Konferencia},
  year={2022},
  editors = {Berend, Gábor and Gosztolya, Gábor and Vincze, Veronika},
  address = {Szeged},
  publisher = {JATEPress},
  pages = {431–446}
}

和：

Roemmele, M.，Bejan，C.和Gordon，A.（2011）可选替代的选择：常识因果推理的评估。AAAI春季关于常识推理的逻辑形式化研讨会，斯坦福大学，2011年3月21日至23日。

@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011},
  url={https://people.ict.usc.edu/~gordon/publications/AAAI-SPRING11A.PDF},
}

贡献

感谢 lnnoemi 添加这个数据集。

作者:

NYTK

数据集大小:

238.12 KB