模型:

mrm8488/t5-base-finetuned-span-sentiment-extraction

英文

T5-base用于情感跨度提取的微调模型

所有权归 Lorenzo Ampil

Google's T5 Tweet Sentiment Extraction Dataset 上针对情感跨度提取任务进行了微调。

T5的详细信息

T5 模型是由 Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu 在 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 中提出的。摘要如下:

转移学习是一种在丰富数据的任务上预训练模型,然后在下游任务上进行微调的强大技术在自然语言处理(NLP)中得到了广泛应用。转移学习的有效性催生了各种方法、方法论和实践。在本文中,我们通过引入一个统一的框架,将每个语言问题转换为文本到文本的格式,来探索NLP的转移学习技术领域。我们的系统研究比较了预训练目标、体系结构、无标签数据集、转移方法和其他因素在数十个语言理解任务上的表现。通过结合我们的探索结果、规模和我们的新“巨大干净爬取的语料库”,我们在涵盖摘要、问答、文本分类等许多基准测试中实现了最先进的结果。为了促进未来在NLP领域的转移学习研究,我们发布了我们的数据集、预训练模型和代码。

下游任务的详细信息(情感跨度提取)-数据集?

Tweet Sentiment Extraction Dataset

"My ridiculous dog is amazing." [情感:积极]

在每一秒钟传播的所有推文中,很难判断某个具体推文背后的情感是否会对一个公司或个人的品牌造成影响,是通过病毒传播(积极)还是因为其消极语气而影响利润。在这些决策和反应仅仅在几秒钟内被创建和更新的时代,捕捉语言中的情感非常重要。但是,哪些词实际上可以导致情感的描述呢?在这个竞赛中,你需要挑选出反映这种情感的推文部分(单词或短语)。

通过此广泛的推文数据集来提高你在这个重要领域的技巧。你如何使用机器学习工具来确定推文中支持积极、消极或中性情感的词语?你如何帮助在这个竞赛中获得一个高的排名?在这个竞赛中,我们从Figure Eight的Data for Everyone平台中提取了支持短语。该数据集标题为情感分析:情感文本中的情绪,使用创作共用归属4.0国际许可证。你在这个竞赛中的目标是构建一个可以做到同样的模型-查看给定推文的标记情感,并找出最能支持该情感的单词或短语。

免责声明:本竞赛的数据集包含可以被认为是粗俗、粗鲁或冒犯的文本。

Dataset Split # samples
TSE train 23907
TSE eval 3573

模型微调?️

训练脚本是由 Lorenzo Ampil 创建的稍微修改的版本 this Colab Notebook ,所以所有权归于他!

模型展示?

from transformers import AutoModelWithLMHead, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("mrm8488/t5-base-finetuned-span-sentiment-extraction")
model = AutoModelWithLMHead.from_pretrained("mrm8488/t5-base-finetuned-span-sentiment-extraction")

def get_sentiment_span(text):
  input_ids = tokenizer.encode(text, return_tensors="pt", add_special_tokens=True)  # Batch size 1
  
  generated_ids = model.generate(input_ids=input_ids, num_beams=1, max_length=80).squeeze()
  
  predicted_span = tokenizer.decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True)
    
  return predicted_span
  
get_sentiment_span("question: negative context: My bike was put on hold...should have known that.... argh total bummer")

# output: 'argh total bummer'

get_sentiment_span("question: positive context: On the monday, so i wont be able to be with you! i love you")

# output: 'i love you'

Manuel Romero/@mrm8488 创建 | LinkedIn

西班牙制造♥