模型:

arpanghoshal/EmoRoBERTa

英文

在 LinkedIn 上与我联系

GoEmotions 是什么

这个数据集用 28 种情绪标记了58000个 Reddit 的评论

  • 崇拜、逗笑、愤怒、烦恼、赞同、关心、困惑、好奇、渴望、失望、不赞成、厌恶、尴尬、兴奋、恐惧、感激、悲伤、喜悦、爱、紧张、乐观、骄傲、觉察、宽慰、后悔、悲伤、惊讶 + 中性

RoBERTa 是什么

RoBERTa 基于 BERT 的语言遮蔽策略,并修改了 BERT 的关键超参数,包括删除了 BERT 的下一句预训练目标,并使用更大的小批量和学习率进行训练。与 BERT 相比,RoBERTa 在更多的数据上进行了十倍数量级的训练,并进行了更长时间的训练。这使得 RoBERTa 的表示能够比 BERT 更好地泛化到下游任务中。

超参数

Parameter
Learning rate 5e-5
Epochs 10
Max Seq Length 50
Batch size 16
Warmup Proportion 0.1
Epsilon 1e-8

结果

Macro F1 最佳结果 - 49.30%

用法

from transformers import RobertaTokenizerFast, TFRobertaForSequenceClassification, pipeline

tokenizer = RobertaTokenizerFast.from_pretrained("arpanghoshal/EmoRoBERTa")
model = TFRobertaForSequenceClassification.from_pretrained("arpanghoshal/EmoRoBERTa")

emotion = pipeline('sentiment-analysis', 
                    model='arpanghoshal/EmoRoBERTa')

emotion_labels = emotion("Thanks for using it.")
print(emotion_labels)

输出

[{'label': 'gratitude', 'score': 0.9964383244514465}]