arpanghoshal/EmoRoBERTa | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

arpanghoshal/EmoRoBERTa

任务:

文本分类

类库:

TensorFlow Transformers

数据集:

go_emotions 3Ago_emotions

语言:

其他:

roberta tensorflow

许可:

mit

模型介绍文件清单

英文

在 LinkedIn 上与我联系

linkedin.com/in/arpanghoshal

GoEmotions 是什么

这个数据集用 28 种情绪标记了58000个 Reddit 的评论

崇拜、逗笑、愤怒、烦恼、赞同、关心、困惑、好奇、渴望、失望、不赞成、厌恶、尴尬、兴奋、恐惧、感激、悲伤、喜悦、爱、紧张、乐观、骄傲、觉察、宽慰、后悔、悲伤、惊讶 + 中性

RoBERTa 是什么

RoBERTa 基于 BERT 的语言遮蔽策略，并修改了 BERT 的关键超参数，包括删除了 BERT 的下一句预训练目标，并使用更大的小批量和学习率进行训练。与 BERT 相比，RoBERTa 在更多的数据上进行了十倍数量级的训练，并进行了更长时间的训练。这使得 RoBERTa 的表示能够比 BERT 更好地泛化到下游任务中。

超参数

Parameter
Learning rate	5e-5
Epochs	10
Max Seq Length	50
Batch size	16
Warmup Proportion	0.1
Epsilon	1e-8

结果

Macro F1 最佳结果 - 49.30%

用法

from transformers import RobertaTokenizerFast, TFRobertaForSequenceClassification, pipeline

tokenizer = RobertaTokenizerFast.from_pretrained("arpanghoshal/EmoRoBERTa")
model = TFRobertaForSequenceClassification.from_pretrained("arpanghoshal/EmoRoBERTa")

emotion = pipeline('sentiment-analysis', 
                    model='arpanghoshal/EmoRoBERTa')

emotion_labels = emotion("Thanks for using it.")
print(emotion_labels)

输出

[{'label': 'gratitude', 'score': 0.9964383244514465}]

作者:

Arpan Ghoshal

数据集大小:

479.31 MB