数据集:
readerbench/ro-offense
任务:
标记分类语言:
ro计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
expert-generated源数据集:
readerbench/ro-offense许可:
apache-2.0这是一个罗马尼亚语的新颖数据集,用于检测辱骂性语言,其中包含来自罗马尼亚当地体育新闻网站(gsp.ro)的手动标注的辱骂标签:
共有12,445条标注信息
罗马尼亚语
'train' 的示例如下。
{ 'id': 5, 'text':'PLACEHOLDER TEXT', 'label': 'OTHER' }
Train | Other | Profanity | Insult | Abuse |
---|---|---|---|---|
9953 | 3656 | 1293 | 2236 | 2768 |
Test | Other | Profanity | Insult | Abuse |
---|---|---|---|---|
2492 | 916 | 324 | 559 | 693 |
收集罗马尼亚语的辱骂语言分类数据。
标注文本时,我们基于 Germeval 2019 年德国推文辱骂语言检测任务的定义(Struß 等人,2019)。
数据源:2011年至2020年间《Gazeta Sporturilor》(gsp.ro)上的文章评论
选择进行标注:我们从一系列具体文章的评论中选择评论,选择依据是文章的评论数。每篇文章的评论数量分布如下:
mean 183.820923 std 334.707177 min 1.000000 25% 20.000000 50% 58.000000 75% 179.000000 max 2151.000000
基于此,我们只选择具有20至50条评论的文章的评论。此外,我们还删除包含URL或连续三个*的评论,因为这些评论大多由编辑或自动亵渎语言检测算法进行审查。
另外,为了获得一些有意义的标注信息,我们只选择长度在50至500个字符之间的信息。
体育新闻文章评论
数据收集和规范化,源语言生成者是谁?体育新闻文章的读者
用于非辱骂文本的标签。
亵渎这是辱骂语言的“轻微”形式。当使用亵渎词汇时,没有直接的目标冒犯意图,或者没有给目标人群归属一些负面特质时,我们使用此标签。该类别中的一些信息甚至可能具有积极的情感,使用亵渎词汇来强调。不针对特定群体或个人的包含亵渎词汇的信息,我们将其标记为亵渎。
此外,含有隐藏了一些字母的亵渎词的自我审查信息,或者明显意图是绕过亵渎检测器的误拼写的亵渎词,将被视为亵渎信息。
侮辱该信息明显想要冒犯某人,将负面评价的特质或缺陷归属给某人或某群体,将某人或某群体标记为不值得或不被看重。侮辱意味着对目标的不尊重和蔑视。
虐待此标签标记包含更强烈形式的侮辱性和虐待性语言的信息。这种类型的语言将给目标赋予一个社会认同,大多数社会对该身份持负面评价,或者至少被视为主要受负面评价的身份。这一类别中包括可耻、不值得或在道德上不可接受的身份。与侮辱不同,虐待性语言要求将判定目标看作是所代表的群体的代表,并将对该群体普遍、无处不在且不可变的负面特质归为一体。
与侮辱不同,虐待性语言要求将判定目标看作是所代表的群体的代表,并将对该群体普遍、无处不在且不可变的负面特质归为一体。
此外,针对个人或群体的贬低性语言也归类为虐待。
标注者是谁?母语讲者
这些数据在收集时是公开的。已经进行了PII(个人身份信息)删除。
数据集中肯定包含辱骂性语言。该数据可以被用于开发和传播针对所有目标群体的辱骂性语言,如能力主义、种族主义、性别歧视、年龄歧视等等。
这些数据可在Apache-2.0许可下使用和分发
tbd