数据集:

NYTK/HuSST

英文

HuSST 数据集卡片

数据集摘要

这是匈牙利版本的斯坦福情感树库的数据集卡片。这个数据集也是匈牙利语言理解评估基准套件HuLU的一部分。该语料库通过翻译和重新标注原始的SST (Roemmele et al., 2011) 数据集而创建。

支持的任务和排行榜

'情感分类'

'情感评分'

语言

匈牙利语的BCP-47代码,是这个数据集中唯一代表的语言,为hu-HU。

数据集结构

数据实例

对于每个实例,都有一个id、一个句子和一个情感标签。

例如:

{
"Sent_id": "dev_0",
"Sent": "Nos, a Jason elment Manhattanbe és a Pokolba kapcsán, azt hiszem, az elkerülhetetlen folytatások ötletlistájáról kihúzhatunk egy űrállomást 2455-ben (hé, ne lődd   le a poént).",
"Label": "neutral"
 }

数据字段

  • Sent_id: 实例的唯一id;

  • Sent: 句子,是SST数据集实例的翻译;

  • Label: "negative"、"neutral"或"positive"。

数据划分

HuSST有3个划分:训练集、验证集和测试集。

Dataset split Number of instances in the split
train 9344
validation 1168
test 1168

测试数据是没有标签的。要评估你的模型,请联系我们,或者查看HuLU的网站进行自动评估(此功能目前正在建设中)。

数据集创建

源数据

数据是SST数据集内容的翻译(只使用了完整的句子)。每个句子由一个人工翻译者翻译。每个翻译都经过人工审核并由另一个注释者进一步修改。

注释

翻译后的句子由三个人工注释者中的一个进行标注,标签包括negative、neutral和positive。然后由第四个注释者("curator")审核和修改每个句子的标注。最终的标签是基于三个注释者的标签由审查员决定的。

注释者是谁?

译者是以匈牙利语为母语,具有英语能力的人。注释者是具有一定语言背景的大学生。

附加信息

许可信息

引用信息

如果您使用这个资源或其任何一部分,请引用:

Ligeti-Nagy, N., Ferenczi, G., Héja, E., Jelencsik-Mátyus, K., Laki, L. J., Vadász, N., Yang, Z. Gy. and Vadász, T.(2022)HuLU:magyar nyelvű benchmark adatbáziskiépítése a neurális nyelvmodellek kiértékelése céljából [HuLU:Hungarian benchmark dataset to evaluate neural language models]。XVIII. Magyar Számítógépes Nyelvészeti Konferencia.pp. 431–446。

@inproceedings{ligetinagy2022hulu,
  title={HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából},
  author={Ligeti-Nagy, N. and Ferenczi, G. and Héja, E. and Jelencsik-Mátyus, K. and Laki, L. J. and Vadász, N. and Yang, Z. Gy. and Vadász, T.},
  booktitle={XVIII. Magyar Számítógépes Nyelvészeti Konferencia},
  year={2022},
  pages = {431--446}
}

并引用:

Socher et al(2013), Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank。In:Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.1631--1642。

@inproceedings{socher-etal-2013-recursive,
    title = "Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank",
    author = "Socher, Richard  and
      Perelygin, Alex  and
      Wu, Jean  and
      Chuang, Jason  and
      Manning, Christopher D.  and
      Ng, Andrew  and
      Potts, Christopher",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/D13-1170",
    pages = "1631--1642",
}

贡献

感谢 lnnoemi 添加了这个数据集。