模型:
blanchefort/rubert-base-cased-sentiment
对短俄文文本进行情感分类
这是一个 DeepPavlov/rubert-base-cased-conversational 经过训练的模型,训练时使用了聚合语料库的351,797个文本。
0: NEUTRAL 1: POSITIVE 2: NEGATIVE
import torch from transformers import AutoModelForSequenceClassification from transformers import BertTokenizerFast tokenizer = BertTokenizerFast.from_pretrained('blanchefort/rubert-base-cased-sentiment') model = AutoModelForSequenceClassification.from_pretrained('blanchefort/rubert-base-cased-sentiment', return_dict=True) @torch.no_grad() def predict(text): inputs = tokenizer(text, max_length=512, padding=True, truncation=True, return_tensors='pt') outputs = model(**inputs) predicted = torch.nn.functional.softmax(outputs.logits, dim=1) predicted = torch.argmax(predicted, dim=1).numpy() return predicted
Рубцова Ю. 为开发和训练情感分类器而自动构建和分析短文本语料库(微博帖子)//知识工程和语义Web技术. – 2012. – 第1卷. – 第109-116页。
RuReviews: 用于俄文产品评论的自动注释情感分析数据集。
A. Rogers A. Romanov A. Rumshisky S. Volkova M. Gronas A. Gribov RuSentiment: 用于俄文社交媒体的增强情感分析数据集。COLING 2018论文集。
数据集包含有关医疗机构的用户评论。数据集于2019年5月从prodoctorov.ru网站收集。