数据集:

readerbench/ro-offense

语言:

ro

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

许可:

apache-2.0
英文

"RO-Offense-Sequences" 数据集卡片

数据集描述

数据集摘要

这是一个罗马尼亚语的新颖数据集,用于检测辱骂性语言,其中包含来自罗马尼亚当地体育新闻网站(gsp.ro)的手动标注的辱骂标签:

共有12,445条标注信息

语言

罗马尼亚语

数据集结构

数据实例

'train' 的示例如下。

{
  'id': 5,
  'text':'PLACEHOLDER TEXT',
  'label': 'OTHER'
}

数据字段

  • id:唯一的评论ID,对应于 RO Offense 中的ID
  • 正文:完整的评论文本
  • 标签:辱骂信息的类型(其他,亵渎、侮辱、虐待)

数据划分

Train Other Profanity Insult Abuse
9953 3656 1293 2236 2768
Test Other Profanity Insult Abuse
2492 916 324 559 693

数据集创建

策划理由

收集罗马尼亚语的辱骂语言分类数据。

标注文本时,我们基于 Germeval 2019 年德国推文辱骂语言检测任务的定义(Struß 等人,2019)。

数据源:2011年至2020年间《Gazeta Sporturilor》(gsp.ro)上的文章评论

选择进行标注:我们从一系列具体文章的评论中选择评论,选择依据是文章的评论数。每篇文章的评论数量分布如下:

mean        183.820923
std         334.707177
min           1.000000
25%          20.000000
50%          58.000000
75%         179.000000
max        2151.000000

基于此,我们只选择具有20至50条评论的文章的评论。此外,我们还删除包含URL或连续三个*的评论,因为这些评论大多由编辑或自动亵渎语言检测算法进行审查。

另外,为了获得一些有意义的标注信息,我们只选择长度在50至500个字符之间的信息。

源数据

体育新闻文章评论

数据收集和规范化,源语言生成者是谁?

体育新闻文章的读者

标注

  • Andrei Paraschiv
  • Irina Maria Sandu
标注过程 其他

用于非辱骂文本的标签。

亵渎

这是辱骂语言的“轻微”形式。当使用亵渎词汇时,没有直接的目标冒犯意图,或者没有给目标人群归属一些负面特质时,我们使用此标签。该类别中的一些信息甚至可能具有积极的情感,使用亵渎词汇来强调。不针对特定群体或个人的包含亵渎词汇的信息,我们将其标记为亵渎。

此外,含有隐藏了一些字母的亵渎词的自我审查信息,或者明显意图是绕过亵渎检测器的误拼写的亵渎词,将被视为亵渎信息。

侮辱

该信息明显想要冒犯某人,将负面评价的特质或缺陷归属给某人或某群体,将某人或某群体标记为不值得或不被看重。侮辱意味着对目标的不尊重和蔑视。

虐待

此标签标记包含更强烈形式的侮辱性和虐待性语言的信息。这种类型的语言将给目标赋予一个社会认同,大多数社会对该身份持负面评价,或者至少被视为主要受负面评价的身份。这一类别中包括可耻、不值得或在道德上不可接受的身份。与侮辱不同,虐待性语言要求将判定目标看作是所代表的群体的代表,并将对该群体普遍、无处不在且不可变的负面特质归为一体。

与侮辱不同,虐待性语言要求将判定目标看作是所代表的群体的代表,并将对该群体普遍、无处不在且不可变的负面特质归为一体。

此外,针对个人或群体的贬低性语言也归类为虐待。

标注者是谁?

母语讲者

个人和敏感信息

这些数据在收集时是公开的。已经进行了PII(个人身份信息)删除。

使用数据的注意事项

数据的社会影响

数据集中肯定包含辱骂性语言。该数据可以被用于开发和传播针对所有目标群体的辱骂性语言,如能力主义、种族主义、性别歧视、年龄歧视等等。

偏见讨论

其他已知限制

其他信息

数据集策划者

许可信息

这些数据可在Apache-2.0许可下使用和分发

引用信息

tbd

贡献