模型:

Hate-speech-CNERG/indic-abusive-allInOne-MuRIL

英文

这个模型用于检测孟加拉语、天城文印地语、混合编码印地语、混合编码卡纳达语、混合编码马拉雅拉姆语、马拉地语、混合编码泰米尔语、乌尔都语、混合编码乌尔都语和英语中的辱骂言论。名称中的allInOne表示联合训练/跨语言训练,模型使用所有语言的数据进行训练。它在MuRIL模型上进行了微调。该模型的学习率为2e-5。训练代码可以在这里找到 url

LABEL_0 :-> 正常

LABEL_1 :-> 辱骂

有关我们论文的更多详细信息

Mithun Das,Somnath Banerjee和Animesh Mukherjee。 " Data Bootstrapping Approaches to Improve Low Resource Abusive Language Detection for Indic Languages "。已被ACM HT 2022接受。

请在使用这些资源的任何已发表作品中引用我们的论文。

@article{das2022data,
  title={Data Bootstrapping Approaches to Improve Low Resource Abusive Language Detection for Indic Languages},
  author={Das, Mithun and Banerjee, Somnath and Mukherjee, Animesh},
  journal={arXiv preprint arXiv:2204.12543},
  year={2022}
}