数据集:

NYTK/HuCOLA

子任务:

text-simplification

语言:

计算机处理:

monolingual

大小:

size_categories:unknown

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

HuCOLA数据集卡片

数据集摘要

这是匈牙利语言可接受性语料库（HuCOLA）的数据集卡片，也是匈牙利语言理解评估基准套件HuLU的一部分。

支持的任务和排行榜

语言

此数据集中仅包含匈牙利语，其BCP-47代码是hu-HU。

数据集结构

数据实例

对于每个实例，都有一个id、一个句子和一个标签。

例如：

{"Sent_id": "dev_0",
 "Sent": "A földek eláradtak.",
 "Label": "0"}

数据字段

Sent_id：实例的唯一id，介于1和1000之间的整数；
Sent：一个匈牙利句子；
标签：'0'表示错误，'1'表示正确的句子。

数据拆分

HuCOLA有3个拆分：训练集、验证集和测试集。

Dataset split	Number of sentences in the split	Proportion of the split
train	7276	80%
validation	900	10%
test	900	10%

测试数据不附带标签。要评估模型，请联系我们，或者查看 HuLU 网站进行自动评估（此功能正在建设中）。评估指标是马修斯相关系数。

数据集创建

源数据

初始数据收集和规范化

数据是由两名人工评注员从3本匈牙利语言学主要书籍中收集的：

Kiefer Ferenc (ed.) (1992), Strukturális magyar nyelvtan 1. Mondattan. Budapest, Akadémiai Kiadó.
Alberti, Gábor and Laczkó, Tibor (eds) (2018), Syntax of Hungarian Nouns and Noun Phrases. I., II. Comprehensive grammar resources. Amsterdam University Press, Amsterdam.
Katalin É. Kiss and Veronika Hegedűs (eds) (2021), Postpositions and Postpositional Phrases. Amsterdam: Amsterdam University Press.

收集句子的过程部分参考了Warstadt et. al (2018)中描述的过程。我们的过程指南可在 HuCOLA 的存储库中找到。

注释

注释流程

每个实例的可接受性由4位人类注释员进行注释（请参见 HuCOLA 存储库中的注释指南）。

注释者是谁？

注释员是匈牙利母语者（年龄从20到67岁不等），没有语言学背景。

附加信息

许可信息

HuCOLA在CC-BY-SA 4.0许可下发布。

引用信息

如果您使用此资源或其任何部分，请引用：

Ligeti-Nagy, N., Ferenczi, G., Héja, E., Jelencsik-Mátyus, K., Laki, L. J., Vadász, N., Yang, Z. Gy. and Váradi, T. (2022) HuLU: magyar nyelvű benchmark adatbáziskiépítése a neurális nyelvmodellek kiértékelése céljából [HuLU: Hungarian benchmark dataset to evaluate neural language models]. XVIII. Magyar Számítógépes Nyelvészeti Konferencia. (待发表)

@inproceedings{ligetinagy2022hulu,
  title={HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából},
  author={Ligeti-Nagy, N. and Ferenczi, G. and Héja, E. and Jelencsik-Mátyus, K. and Laki, L. J. and Vadász, N. and Yang, Z. Gy. and Váradi, T.},
  booktitle={XVIII. Magyar Számítógépes Nyelvészeti Konferencia},
  year={2022}
}

贡献

感谢 lnnoemi 添加了此数据集。

作者:

NYTK

数据集大小:

1.1 MB