在 LinkedIn 上与我联系
这个数据集用 28 种情绪标记了58000个 Reddit 的评论
RoBERTa 基于 BERT 的语言遮蔽策略,并修改了 BERT 的关键超参数,包括删除了 BERT 的下一句预训练目标,并使用更大的小批量和学习率进行训练。与 BERT 相比,RoBERTa 在更多的数据上进行了十倍数量级的训练,并进行了更长时间的训练。这使得 RoBERTa 的表示能够比 BERT 更好地泛化到下游任务中。
Parameter | |
---|---|
Learning rate | 5e-5 |
Epochs | 10 |
Max Seq Length | 50 |
Batch size | 16 |
Warmup Proportion | 0.1 |
Epsilon | 1e-8 |
Macro F1 最佳结果 - 49.30%
from transformers import RobertaTokenizerFast, TFRobertaForSequenceClassification, pipeline tokenizer = RobertaTokenizerFast.from_pretrained("arpanghoshal/EmoRoBERTa") model = TFRobertaForSequenceClassification.from_pretrained("arpanghoshal/EmoRoBERTa") emotion = pipeline('sentiment-analysis', model='arpanghoshal/EmoRoBERTa') emotion_labels = emotion("Thanks for using it.") print(emotion_labels)
输出
[{'label': 'gratitude', 'score': 0.9964383244514465}]