Offensive language dataset of Croatian comments FRENK 1.0

FRENK dataset 的克罗地亚评论的冒犯性语言数据集。还可在HuggingFace数据集中心获得： English subset ， Slovenian subset

原始数据集描述

FRENK数据集原始包含来自克罗地亚、英国和斯洛文尼亚主流媒体在移民和LGBT话题上的Facebook帖子（新闻文章）的评论。该数据集包含完整的讨论线程。每个评论都用社会不可接受的言论类型（例如不适当的、冒犯的、暴力的言论）及其目标（例如移民/LGBT、评论者、媒体）进行了注释。注释方案在 https://arxiv.org/pdf/1906.02045.pdf] 中有详细描述。元数据中的用户名经过伪匿名化处理并从评论中删除。

每种语言（克罗地亚语（hr）、英语（en）、斯洛文尼亚语（sl））和主题（移民、LGBT）的数据都分为训练集和测试集部分。训练和测试数据由单独的讨论线程组成，即训练和测试数据之间没有跨讨论线程的污染。拆分的大小如下：克罗地亚、移民：4356个训练评论，978个测试评论；克罗地亚LGBT：4494个训练评论，1142个评论；英语、移民：4540个训练评论，1285个测试评论；英语、LGBT：4819个训练评论，1017个测试评论；斯洛文尼亚、移民：5145个训练评论，1277个测试评论；斯洛文尼亚、LGBT：2842个训练评论，900个测试评论。

仅使用了此数据集中的克罗地亚数据。训练部分已分为开头90%（发布在此处作为训练集）和结尾10%（发布在此处作为开发集）。测试部分保留了其原始形式。

在 Transformers 中的使用

import datasets
ds = datasets.load_dataset("classla/FRENK-hate-hr","binary")

对于二进制分类，使用以下编码：

_CLASS_MAP_BINARY = {
    'Acceptable': 0, 
    'Offensive': 1, 
}

如果使用 multiclass 选项加载数据集，则可用原始标签：

import datasets
ds = datasets.load_dataset("classla/FRENK-hate-hr","multiclass").

在这种情况下，使用的编码是：

_CLASS_MAP_MULTICLASS = {
    'Acceptable speech': 0, 
    'Inappropriate': 1, 
    'Background offensive': 2,
    'Other offensive': 3, 
    'Background violence': 4,
    'Other violence': 5, 
}

数据结构

text : 文本
target : 仇恨言论文本的目标（"无目标"、"评论者"、"目标"（根据主题是移民或LGBT）或"相关"（再次是主题））
topic : 文本是否与lgbt或移民仇恨言论领域有关
label : 文本实例的标签，请参见上文

数据示例

{'text': 'Potpisujem komentar g ankice pavicic',
 'target': 'No target',
 'topic': 'lgbt',
 'label': 0}

许可信息

CLARIN.SI 许可证 ACA ID-BY-NC-INF-NORED 1.0

引用信息

在使用此数据集时，请引用以下论文：

@misc{ljubešić2019frenk,
      title={The FRENK Datasets of Socially Unacceptable Discourse in Slovene and English}, 
      author={Nikola Ljubešić and Darja Fišer and Tomaž Erjavec},
      year={2019},
      eprint={1906.02045},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/1906.02045}
}

原始数据集的引用如下：

@misc{11356/1433,
title = {Offensive language dataset of Croatian, English and Slovenian comments {FRENK} 1.0},
author = {Ljube{\v s}i{\'c}, Nikola and Fi{\v s}er, Darja and Erjavec, Toma{\v z}},
url = {http://hdl.handle.net/11356/1433},
note = {Slovenian language resource repository {CLARIN}.{SI}},
copyright = {{CLARIN}.{SI} Licence {ACA} {ID}-{BY}-{NC}-{INF}-{NORED} 1.0},
year = {2021} }

作者:

classla

数据集大小:

618.99 KB