模型:

hackathon-pln-es/twitter_sexismo-finetuned-robertuito-exist2021

英文

twitter_sexismo-finetuned-exist2021

这个模型是在EXIST数据集上fine-tuning的 pysentimiento/robertuito-base-uncased 版本。

它在评估集上达到以下结果:

  • 损失:0.47
  • 准确率:0.80
  • F1值:0.83
  • F2值:0.89

模型描述

这是“Somos NLP”黑客马拉松的模型,用于检测西班牙语Twitter中的性别歧视。由以下成员创建:

  • medardodt
  • MariaIsabel
  • ManRo
  • lucel172
  • robertou2

预期用途和限制

需要更多信息。

培训和评估数据

需要更多信息。

培训过程

该模型已经训练以获得最佳的F2得分。F度量值是精确度和召回率的调和平均值,给予两者相同的权重。它允许使用单个得分评估模型,同时考虑精确度和召回率,对于描述模型的性能和比较模型很有帮助。Fbeta度量是F度量的推广,它增加了一个称为beta的配置参数。默认beta值为1.0,与F度量相同。较小的beta值如0.5,更加重视精确度而不是召回率;而较大的beta值如2.0,在计算得分时不太重视精确度但更加重视召回率。当精确度和召回率都很重要,但稍微更需要关注其中之一时,例如当假阴性比假阳性更重要时,或反之亦然,F2度量就非常有用。F2度量更加关注最小化假阴性。我们希望检测到性别歧视性评论。

培训超参数

在培训过程中使用了以下超参数:

  • my_learning_rate = 5E-5
  • my_adam_epsilon = 1E-8
  • my_number_of_epochs = 8
  • my_warmup = 3
  • my_mini_batch_size = 32
  • 优化器:AdamW,参数为betas=(0.9,0.999),epsilon=1e-08
  • lr_scheduler_type:线性
  • num_epochs:8

培训结果

Epoch 训练损失 验证损失 准确率 F1值 精确度 召回率 F2值

1 0.478700 0.443148 0.804386 0.830160 0.750689 0.928450 0.886467

2 0.298000 0.460549 0.823684 0.841107 0.784661 0.906303 0.879048

3 0.063600 0.706177 0.817544 0.829508 0.799368 0.862010 0.848708

4 0.078700 1.060862 0.816667 0.836078 0.774709 0.908007 0.877800

5 0.005900 1.069239 0.808772 0.821604 0.790551 0.855196 0.841435

6 0.008300 1.184729 0.808772 0.821604 0.790551 0.855196 0.841435

7 0.001400 1.238865 0.816667 0.829388 0.796238 0.865417 0.850636

8 0.000100 1.267197 0.815789 0.827303 0.799682 0.856899 0.844810

9 0.000100 1.267815 0.808772 0.818937 0.799028 0.839864 0.831366

10 0.000300 1.275827 0.807895 0.818257 0.797735 0.839864 0.831086

框架版本

  • Transformers 4.17.0
  • Pytorch 1.10.0+cu111
  • Tokenizers 0.11.6

模型应用

使用pipeline进行快速使用:

###libraries required
!pip install transformers
from transformers import pipeline

### usage pipelines
model_checkpoint = "robertou2/twitter_sexismo-finetuned-robertuito-exist2021" 
pipeline_nlp = pipeline("text-classification", model=model_checkpoint)
pipeline_nlp("mujer al volante peligro!") 
#pipeline_nlp("¡me encanta el ipad!") 
#pipeline_nlp (["mujer al volante peligro!", "Los hombre tienen más manias que las mujeres", "me encanta el ipad!"] )

# OUTPUT MODEL #
# LABEL_0: "NON SEXISM"or LABEL_1: "SEXISM"  and score: probability of accuracy per model.

# [{'label': 'LABEL_1', 'score': 0.9967633485794067}]
# [{'label': 'LABEL_0', 'score': 0.9934417009353638}]

#[{‘label': 'LABEL_1', 'score': 0.9967633485794067},
# {'label': 'LABEL_1', 'score': 0.9755664467811584},
# {'label': 'LABEL_0', 'score': 0.9955045580863953}]

更多信息处理

挑战

在这个过程中遇到的主要挑战之一是获取西班牙语的数据集。我们设法获取了(经事先申请)在 EXIST:sEXism Identification in Social neTworks 中使用的数据集,该数据集是开始建立模型的很好的起点。不幸的是,由于许可证和共享策略的限制,该数据集无法自由共享。该数据集包含所有类型的性别歧视表达或相关现象,包括性别歧视行为的陈述性或知情性描述。我们使用了3,541条标记为西班牙语的推文。然后,我们设法获取了另一个西班牙语数据集 MeTwo: Machismo and Sexism Twitter Identification dataset 。该数据集包含每个推文的标签和id,这使我们能够获取推文文本并扩充原始数据集。另一个挑战是开始进行测试的fine-tuning过程,因为我们需要验证和测试各种变量(从模型,如BETO或Roberta,到超参数如learning rate),而且只有两周的有限时间加上学习曲线。对于这个挑战,我们基于de Paula等人(2021)提出的参数进行了初步测试,该研究工作在西班牙语性别歧视推文的识别上取得了79.0%的准确率。在这个领域,我们进行了多个并行测试以找到最佳模型。经过协作fine-tuning的过程,我们实现了83%的准确率。

未来工作

我们计划扩充开发的数据集。为此,可以下载更多西班牙语推文,并应用主动学习技术,从中获取一小部分需要通过众包标注的推文,并使用这些标注数据来标记其余数据。还可以使用数据增强技术来复制和扩展数据集。进行更多其他模型的测试和改进模型是另一个未来的挑战。

可能的应用

首先,非常重要的是更多地关注西班牙语社交媒体中的性别歧视问题。迁移学习过程可以重用和利用先前训练得到的模型,希望新的研究团队、学生等使用当前模型的基础来开发自己的模型,并创建更好的模型。这样,我们可以构建一个可以实时识别性别歧视推文并在其传播之前将其删除的工具。

参考资料

1 de Paula, A. F. M., da Silva, R. F., & Schlicht, I. B. (2021). Sexism Prediction in Spanish and English Tweets Using Monolingual and Multilingual BERT and Ensemble Models. arXiv preprint arXiv:2111.04551.

Rodríguez-Sánchez, F., Carrillo-de-Albornoz, J., Plaza, L., Gonzalo, J., Rosso, P., Comet, M., & Donoso, T. (2021). Overview of exist 2021: sexism identification in social networks. Procesamiento del Lenguaje Natural, 67, 195-207.