数据集:
NYTK/HuCOLA
子任务:
text-simplification语言:
hu计算机处理:
monolingual语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
cc-by-sa-4.0这是匈牙利语言可接受性语料库(HuCOLA)的数据集卡片,也是匈牙利语言理解评估基准套件HuLU的一部分。
此数据集中仅包含匈牙利语,其BCP-47代码是hu-HU。
对于每个实例,都有一个id、一个句子和一个标签。
例如:
{"Sent_id": "dev_0", "Sent": "A földek eláradtak.", "Label": "0"}
HuCOLA有3个拆分:训练集、验证集和测试集。
Dataset split | Number of sentences in the split | Proportion of the split |
---|---|---|
train | 7276 | 80% |
validation | 900 | 10% |
test | 900 | 10% |
测试数据不附带标签。要评估模型,请 联系我们,或者查看 HuLU 网站 进行自动评估(此功能正在建设中)。评估指标是马修斯相关系数。
数据是由两名人工评注员从3本匈牙利语言学主要书籍中收集的:
收集句子的过程部分参考了Warstadt et. al (2018)中描述的过程。我们的过程指南可在 HuCOLA 的存储库中找到。
每个实例的可接受性由4位人类注释员进行注释(请参见 HuCOLA 存储库中的注释指南)。
注释者是谁?注释员是匈牙利母语者(年龄从20到67岁不等),没有语言学背景。
HuCOLA在CC-BY-SA 4.0许可下发布。
如果您使用此资源或其任何部分,请引用:
Ligeti-Nagy, N., Ferenczi, G., Héja, E., Jelencsik-Mátyus, K., Laki, L. J., Vadász, N., Yang, Z. Gy. and Váradi, T. (2022) HuLU: magyar nyelvű benchmark adatbáziskiépítése a neurális nyelvmodellek kiértékelése céljából [HuLU: Hungarian benchmark dataset to evaluate neural language models]. XVIII. Magyar Számítógépes Nyelvészeti Konferencia. (待发表)
@inproceedings{ligetinagy2022hulu, title={HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából}, author={Ligeti-Nagy, N. and Ferenczi, G. and Héja, E. and Jelencsik-Mátyus, K. and Laki, L. J. and Vadász, N. and Yang, Z. Gy. and Váradi, T.}, booktitle={XVIII. Magyar Számítógépes Nyelvészeti Konferencia}, year={2022} }
感谢 lnnoemi 添加了此数据集。