数据集:

senti_ws

英文

SentiWS 数据集卡片

数据集摘要

SentiWS(SentimentWortschatz)是一个公开可用的用于情感分析、观点挖掘等德语资源。它列出了在[-1;1]区间内加权的正面和负面极性词汇及其词性标签,以及(如果适用的话)它们的屈折变化形式。当前版本的SentiWS包含大约1,650个正面和1,800个负面词汇,分别总计大约16,000个正面和18,000个负面词形,其中包括它们的屈折变化形式。它不仅包含明确表达情感的形容词和副词,还包含隐含着情感的名词和动词。

支持的任务和排行榜

情感评分,词性标注

语言

德语

数据集结构

数据实例

用于词性标注:

{ 
"word":"Abbau"
"pos_tag": 0
}

用于情感评分:

{
"word":"Abbau"
"sentiment-score":-0.058
}

数据字段

SentiWS以UTF8编码的文本形式呈现。用于词性标注:

  • 词语:一个字符串形式的词语,
  • 词性标签:词语的词性标签,表示为一个整数。用于情感评分:
  • 词语:一个字符串形式的词语,
  • 情感评分:一个介于-1和1之间的浮点数表示词语的情感得分。

词性标签有["NN"、"VVINF"、"ADJX"、"ADV"],分别表示["名词"、"动词"、"形容词"、"副词"],正负极性词汇的得分介于[-1,1]之间。

数据拆分

训练集:1,650个负面词汇和1,818个正面词汇

数据集创建

策划理由

[需要更多信息]

源数据

初始数据采集和标准化

[需要更多信息]

语言的来源是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集负责人

[需要更多信息]

许可信息

创作共用归属性-非商业性使用-相同方式共享3.0国际许可证

引用信息

@INPROCEEDINGS{remquahey2010,title = {SentiWS -- a Publicly Available German-language Resource for Sentiment Analysis},booktitle = {Proceedings of the 7th International Language Resources and Evaluation (LREC'10)},author = {Remus, R. and Quasthoff, U. and Heyer, G.},year = {2010}}

贡献

感谢 @harshalmittal4 添加了这个数据集。