数据集:

classla/FRENK-hate-sl

英文

FRENK dataset 的斯洛文尼亚子集。还可在HuggingFace数据集中心找到: English subset Croatian subset

原始数据集描述

原始FRENK数据集包含来自克罗地亚、英国和斯洛文尼亚主流媒体在移民和LGBT话题上的Facebook帖子(新闻文章)的评论。数据集包含完整的讨论线程。每个评论都被注释为社会不可接受的言论类型(如不适当的、冒犯性的、暴力性的言论)及其目标(如移民/LGBT、评论者、媒体)。注释架构在[ https://arxiv.org/pdf/1906.02045.pdf] ]中详细描述。元数据中的用户名已经伪匿名并从评论中删除。

每种语言(克罗地亚语(hr)、英语(en)、斯洛文尼亚语(sl))和主题(移民、LGBT)的数据都分为训练部分和测试部分。训练和测试数据由独立的讨论线程组成,即训练数据和测试数据之间没有跨讨论线程污染。拆分的大小如下:克罗地亚、移民:4356个训练评论,978个测试评论;克罗地亚LGBT:4494个训练评论,1142个评论;英语、移民:4540个训练评论,1285个测试评论;英语、LGBT:4819个训练评论,1017个测试评论;斯洛文尼亚、移民:5145个训练评论,1277个测试评论;斯洛文尼亚、LGBT:2842个训练评论,900个测试评论。

对于这个数据集,只使用了克罗地亚的数据。训练部分已分为前90%(作为训练集发布)和后10%(作为开发集发布)。

在Transformers中的使用

import datasets
ds = datasets.load_dataset("classla/FRENK-hate-sl","binary") 

对于二分类,使用以下编码:

_CLASS_MAP_BINARY = {
    'Acceptable': 0, 
    'Offensive': 1, 
}

如果使用multiclass选项加载数据集,则可获得原始标签:

import datasets
ds = datasets.load_dataset("classla/FRENK-hate-sl","multiclass").

在这种情况下,使用的编码是:

_CLASS_MAP_MULTICLASS = {
    'Acceptable speech': 0, 
    'Inappropriate': 1, 
    'Background offensive': 2,
    'Other offensive': 3, 
    'Background violence': 4,
    'Other violence': 5, 
}

数据结构

  • text:文本
  • target:仇恨言论的目标("无目标"、"评论者"、"目标"(取决于主题,是移民或LGBT)或"相关"(再次是主题))
  • topic:文本是否涉及LGBT或移民的仇恨言论领域
  • label:文本实例的标签,请参见上文

数据实例

{'text': 'Otroci so odprti in brez predsodkov.Predsodke jim vcepimo starejši,starši,družba,družina...Če otroku lepo razložimo,razume.Nikoli ni dobro,da omejujemo otroka,njegovo inteligenco in duhovnost z lastnim ne razumevanjem nečesa ali nekoga.Predsodek je miselni zapor,prepreka,da bi bili svobodni.Ljubezen je svoboda.Sem ZA spremembo zakona!Srečno :D',
 'target': 'No target',
 'topic': 'lgbt',
 'label': 0}

许可信息

CLARIN.SI许可证ACA ID-BY-NC-INF-NORED 1.0

引用信息

在使用此数据集时,请引用以下论文:

@misc{ljubešić2019frenk,
      title={The FRENK Datasets of Socially Unacceptable Discourse in Slovene and English}, 
      author={Nikola Ljubešić and Darja Fišer and Tomaž Erjavec},
      year={2019},
      eprint={1906.02045},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/1906.02045}
}

可以引用原始数据集作为

@misc{11356/1433,
title = {Offensive language dataset of Croatian, English and Slovenian comments {FRENK} 1.0},
author = {Ljube{\v s}i{\'c}, Nikola and Fi{\v s}er, Darja and Erjavec, Toma{\v z}},
url = {http://hdl.handle.net/11356/1433},
note = {Slovenian language resource repository {CLARIN}.{SI}},
copyright = {{CLARIN}.{SI} Licence {ACA} {ID}-{BY}-{NC}-{INF}-{NORED} 1.0},
year = {2021} }