模型:

blanchefort/rubert-base-cased-sentiment

英文

RuBERT情感分析

对短俄文文本进行情感分类

这是一个 DeepPavlov/rubert-base-cased-conversational 经过训练的模型,训练时使用了聚合语料库的351,797个文本。

标签

0: NEUTRAL
1: POSITIVE
2: NEGATIVE

如何使用

import torch
from transformers import AutoModelForSequenceClassification
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('blanchefort/rubert-base-cased-sentiment')
model = AutoModelForSequenceClassification.from_pretrained('blanchefort/rubert-base-cased-sentiment', return_dict=True)

@torch.no_grad()
def predict(text):
    inputs = tokenizer(text, max_length=512, padding=True, truncation=True, return_tensors='pt')
    outputs = model(**inputs)
    predicted = torch.nn.functional.softmax(outputs.logits, dim=1)
    predicted = torch.argmax(predicted, dim=1).numpy()
    return predicted

用于模型训练的数据集

RuTweetCorp

Рубцова Ю. 为开发和训练情感分类器而自动构建和分析短文本语料库(微博帖子)//知识工程和语义Web技术. – 2012. – 第1卷. – 第109-116页。

RuReviews

RuReviews: 用于俄文产品评论的自动注释情感分析数据集。

RuSentiment

A. Rogers A. Romanov A. Rumshisky S. Volkova M. Gronas A. Gribov RuSentiment: 用于俄文社交媒体的增强情感分析数据集。COLING 2018论文集。

Отзывы о медучреждениях

数据集包含有关医疗机构的用户评论。数据集于2019年5月从prodoctorov.ru网站收集。