数据集:

NYTK/HuCOLA

语言:

hu

计算机处理:

monolingual

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original
英文

HuCOLA数据集卡片

数据集摘要

这是匈牙利语言可接受性语料库(HuCOLA)的数据集卡片,也是匈牙利语言理解评估基准套件HuLU的一部分。

支持的任务和排行榜

语言

此数据集中仅包含匈牙利语,其BCP-47代码是hu-HU。

数据集结构

数据实例

对于每个实例,都有一个id、一个句子和一个标签。

例如:

{"Sent_id": "dev_0",
 "Sent": "A földek eláradtak.",
 "Label": "0"}

数据字段

  • Sent_id:实例的唯一id,介于1和1000之间的整数;
  • Sent:一个匈牙利句子;
  • 标签:'0'表示错误,'1'表示正确的句子。

数据拆分

HuCOLA有3个拆分:训练集、验证集和测试集。

Dataset split Number of sentences in the split Proportion of the split
train 7276 80%
validation 900 10%
test 900 10%

测试数据不附带标签。要评估模型,请 联系我们,或者查看 HuLU 网站 进行自动评估(此功能正在建设中)。评估指标是马修斯相关系数。

数据集创建

源数据

初始数据收集和规范化

数据是由两名人工评注员从3本匈牙利语言学主要书籍中收集的:

  • Kiefer Ferenc (ed.) (1992), Strukturális magyar nyelvtan 1. Mondattan. Budapest, Akadémiai Kiadó.
  • Alberti, Gábor and Laczkó, Tibor (eds) (2018), Syntax of Hungarian Nouns and Noun Phrases. I., II. Comprehensive grammar resources. Amsterdam University Press, Amsterdam.
  • Katalin É. Kiss and Veronika Hegedűs (eds) (2021), Postpositions and Postpositional Phrases. Amsterdam: Amsterdam University Press.

收集句子的过程部分参考了Warstadt et. al (2018)中描述的过程。我们的过程指南可在 HuCOLA 的存储库中找到。

注释

注释流程

每个实例的可接受性由4位人类注释员进行注释(请参见 HuCOLA 存储库中的注释指南)。

注释者是谁?

注释员是匈牙利母语者(年龄从20到67岁不等),没有语言学背景。

附加信息

许可信息

HuCOLA在CC-BY-SA 4.0许可下发布。

引用信息

如果您使用此资源或其任何部分,请引用:

Ligeti-Nagy, N., Ferenczi, G., Héja, E., Jelencsik-Mátyus, K., Laki, L. J., Vadász, N., Yang, Z. Gy. and Váradi, T. (2022) HuLU: magyar nyelvű benchmark adatbáziskiépítése a neurális nyelvmodellek kiértékelése céljából [HuLU: Hungarian benchmark dataset to evaluate neural language models]. XVIII. Magyar Számítógépes Nyelvészeti Konferencia. (待发表)

@inproceedings{ligetinagy2022hulu,
  title={HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából},
  author={Ligeti-Nagy, N. and Ferenczi, G. and Héja, E. and Jelencsik-Mátyus, K. and Laki, L. J. and Vadász, N. and Yang, Z. Gy. and Váradi, T.},
  booktitle={XVIII. Magyar Számítógépes Nyelvészeti Konferencia},
  year={2022}
}

贡献

感谢 lnnoemi 添加了此数据集。