数据集:
uit-nlp/vietnamese_students_feedback
任务:
文本分类语言:
vi计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
no-annotation源数据集:
original许可:
license:unknown学生反馈是一个涉及情感分析和教育两个不同研究领域的跨学科研究的重要资源。
越南学生反馈语料库(UIT-VSFC)是由超过16,000个句子组成的资源,这些句子是人工注释的,包含两种不同的任务:基于情感和基于主题的分类。
为了评估我们语料库的质量,我们在UIT-VSFC语料库上进行了注释人之间的一致性和分类评估。结果显示,情感和主题的注释者一致性分别达到91%以上和71%以上。此外,我们使用最大熵分类器构建了基准模型,情感F1分数约为88%,主题F1分数超过84%。
[需要更多信息]
数据集中文本句子的语言是越南语(vi)。
示例实例:
{ 'sentence': 'slide giáo trình đầy đủ .', 'sentiment': 2, 'topic': 1 }
数据集划分为训练集、验证集和测试集。
Tain | Validation | Test | |
---|---|---|---|
Number of examples | 11426 | 1583 | 3166 |
[需要更多信息]
[需要更多信息]
源语言制作人是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
未知。
@InProceedings{8573337, author={Nguyen, Kiet Van and Nguyen, Vu Duc and Nguyen, Phu X. V. and Truong, Tham T. H. and Nguyen, Ngan Luu-Thuy}, booktitle={2018 10th International Conference on Knowledge and Systems Engineering (KSE)}, title={UIT-VSFC: Vietnamese Students’ Feedback Corpus for Sentiment Analysis}, year={2018}, volume={}, number={}, pages={19-24}, doi={10.1109/KSE.2018.8573337} }
感谢 @albertvillanova 添加了此数据集。