数据集:
NYTK/HuSST
这是匈牙利版本的斯坦福情感树库的数据集卡片。这个数据集也是匈牙利语言理解评估基准套件HuLU的一部分。该语料库通过翻译和重新标注原始的SST (Roemmele et al., 2011) 数据集而创建。
'情感分类'
'情感评分'
匈牙利语的BCP-47代码,是这个数据集中唯一代表的语言,为hu-HU。
对于每个实例,都有一个id、一个句子和一个情感标签。
例如:
{ "Sent_id": "dev_0", "Sent": "Nos, a Jason elment Manhattanbe és a Pokolba kapcsán, azt hiszem, az elkerülhetetlen folytatások ötletlistájáról kihúzhatunk egy űrállomást 2455-ben (hé, ne lődd le a poént).", "Label": "neutral" }
Sent_id: 实例的唯一id;
Sent: 句子,是SST数据集实例的翻译;
Label: "negative"、"neutral"或"positive"。
HuSST有3个划分:训练集、验证集和测试集。
Dataset split | Number of instances in the split |
---|---|
train | 9344 |
validation | 1168 |
test | 1168 |
测试数据是没有标签的。要评估你的模型,请联系我们,或者查看HuLU的网站进行自动评估(此功能目前正在建设中)。
数据是SST数据集内容的翻译(只使用了完整的句子)。每个句子由一个人工翻译者翻译。每个翻译都经过人工审核并由另一个注释者进一步修改。
翻译后的句子由三个人工注释者中的一个进行标注,标签包括negative、neutral和positive。然后由第四个注释者("curator")审核和修改每个句子的标注。最终的标签是基于三个注释者的标签由审查员决定的。
注释者是谁?
译者是以匈牙利语为母语,具有英语能力的人。注释者是具有一定语言背景的大学生。
如果您使用这个资源或其任何一部分,请引用:
Ligeti-Nagy, N., Ferenczi, G., Héja, E., Jelencsik-Mátyus, K., Laki, L. J., Vadász, N., Yang, Z. Gy. and Vadász, T.(2022)HuLU:magyar nyelvű benchmark adatbáziskiépítése a neurális nyelvmodellek kiértékelése céljából [HuLU:Hungarian benchmark dataset to evaluate neural language models]。XVIII. Magyar Számítógépes Nyelvészeti Konferencia.pp. 431–446。
@inproceedings{ligetinagy2022hulu, title={HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából}, author={Ligeti-Nagy, N. and Ferenczi, G. and Héja, E. and Jelencsik-Mátyus, K. and Laki, L. J. and Vadász, N. and Yang, Z. Gy. and Vadász, T.}, booktitle={XVIII. Magyar Számítógépes Nyelvészeti Konferencia}, year={2022}, pages = {431--446} }
并引用:
Socher et al(2013), Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank。In:Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.1631--1642。
@inproceedings{socher-etal-2013-recursive, title = "Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank", author = "Socher, Richard and Perelygin, Alex and Wu, Jean and Chuang, Jason and Manning, Christopher D. and Ng, Andrew and Potts, Christopher", booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing", month = oct, year = "2013", address = "Seattle, Washington, USA", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/D13-1170", pages = "1631--1642", }
感谢 lnnoemi 添加了这个数据集。