数据集:

senti_lex

计算机处理:

multilingual

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

许可:

gpl-3.0
英文

SentiWS 数据集介绍

数据集概述

该数据集通过基于知识图的图传播生成了81种语言的情感词典,知识图是对真实世界实体及其之间链接的图形表示

支持的任务和排行榜

情感分类

语言

阿非利卡语、阿拉贡语、阿拉伯语、阿塞拜疆语、白俄罗斯语、保加利亚语、孟加拉语、布列塔尼语、波斯尼亚语、加泰罗尼亚语、捷克语、威尔士语、丹麦语、德语、现代希腊语、世界语、西班牙语、爱沙尼亚语、巴斯克语、波斯语、芬兰语、法罗语、法语、西弗里斯兰语、爱尔兰语、苏格兰盖尔语、加利西亚语、古吉拉特语、现代希伯来语、印地语、克罗地亚语、海地克里奥尔语、匈牙利语、亚美尼亚语、国际辅助语、印度尼西亚语、伊多语、冰岛语、意大利语、日语、格鲁吉亚语、高棉语、卡纳达语、韩语、库尔德语、吉尔吉斯语、拉丁语、卢森堡语、立陶宛语、拉脱维亚语、马其顿语、马拉地语、马来语、马耳他语、荷兰语、挪威尼诺斯克语、挪威语、波兰语、葡萄牙语、罗曼什语、罗马尼亚语、俄语、斯洛伐克语、斯洛文尼亚语、阿尔巴尼亚语、塞尔维亚语、瑞典语、斯瓦希里语、泰米尔语、泰卢固语、泰语、土库曼语、塔加洛语、土耳其语、乌克兰语、乌尔都语、乌兹别克语、越南语、沃洛波克语、瓦隆语、意第绪语、中文、Zhoa

数据集结构

数据实例

{
"word":"die",
"sentiment": 0, #"negative"
}

数据字段

  • word: 一个字符串形式的单词,
  • sentiment-score: 单词的情感分类,字符串形式,可能是负面的(0)或正面的(1)

数据集划分

[需要更多信息]

数据集创建

策展原理

[需要更多信息]

来源数据

初始数据收集和规范化

[需要更多信息]

语言数据的来源是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

GNU通用公共许可证v3.

在此分发的版本遵循 GNU General Public License 。请注意,这是完整的GPL,允许许多自由使用,但不允许将其整体或部分以任何形式或翻译合并到任何分布式专有软件中。有关商业应用,请联系数据集的创建者(参见“引用信息”)。

引用信息

这个数据集是由Yanqing Chen和Steven Skiena收集的。如果您在您的工作中使用它,请引用以下论文:

@inproceedings{chen-skiena-2014-building,
    title = "Building Sentiment Lexicons for All Major Languages",
    author = "Chen, Yanqing  and
      Skiena, Steven",
    booktitle = "Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
    month = jun,
    year = "2014",
    address = "Baltimore, Maryland",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P14-2063",
    doi = "10.3115/v1/P14-2063",
    pages = "383--389",
}

贡献者

感谢 @KMFODA 添加了这个数据集。