数据集:

uit-nlp/vietnamese_students_feedback

语言:

vi

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original
英文

越南学生反馈语料库数据卡

数据集摘要

学生反馈是一个涉及情感分析和教育两个不同研究领域的跨学科研究的重要资源。

越南学生反馈语料库(UIT-VSFC)是由超过16,000个句子组成的资源,这些句子是人工注释的,包含两种不同的任务:基于情感和基于主题的分类。

为了评估我们语料库的质量,我们在UIT-VSFC语料库上进行了注释人之间的一致性和分类评估。结果显示,情感和主题的注释者一致性分别达到91%以上和71%以上。此外,我们使用最大熵分类器构建了基准模型,情感F1分数约为88%,主题F1分数超过84%。

支持的任务和排行榜

[需要更多信息]

语言

数据集中文本句子的语言是越南语(vi)。

数据集结构

数据实例

示例实例:

{
  'sentence': 'slide giáo trình đầy đủ .', 
  'sentiment': 2, 
  'topic': 1
}

数据字段

  • sentence(str):文本句子。
  • sentiment:情感类别,取值为0(消极)、1(中性)和2(积极)。
  • topic:主题类别,取值为0(讲师)、1(培训计划)、2(设施)和3(其他)。

数据切分

数据集划分为训练集、验证集和测试集。

Tain Validation Test
Number of examples 11426 1583 3166

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言制作人是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人信息和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

未知。

引用信息

@InProceedings{8573337,
  author={Nguyen, Kiet Van and Nguyen, Vu Duc and Nguyen, Phu X. V. and Truong, Tham T. H. and Nguyen, Ngan Luu-Thuy},
  booktitle={2018 10th International Conference on Knowledge and Systems Engineering (KSE)},
  title={UIT-VSFC: Vietnamese Students’ Feedback Corpus for Sentiment Analysis},
  year={2018},
  volume={},
  number={},
  pages={19-24},
  doi={10.1109/KSE.2018.8573337}
}

贡献

感谢 @albertvillanova 添加了此数据集。