该模型是对 bert-base-uncased 模型进行微调的版本,用于分类有害评论。
您可以使用以下代码使用模型。
from transformers import BertForSequenceClassification, BertTokenizer, TextClassificationPipeline model_path = "JungleLee/bert-toxic-comment-classification" tokenizer = BertTokenizer.from_pretrained(model_path) model = BertForSequenceClassification.from_pretrained(model_path, num_labels=2) pipeline = TextClassificationPipeline(model=model, tokenizer=tokenizer) print(pipeline("You're a fucking nerd."))
训练数据来自于此 Kaggle competition 。我们使用train.csv数据的90%进行模型训练。
该模型在一个包含1500行的测试集上实现了0.95的AUC。