数据集:

poleval2019_cyberbullying

任务:

文本分类

子任务:

intent-classification

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original

许可:

license:unknown

数据集介绍文件清单

英文

Poleval 2019网络欺凌数据集卡片

数据集概况

任务6-1：有害 vs 无害

在该任务中，参与者需要区分正常/无害的推文（类别：0）以及包含任何形式有害信息的推文（类别：1）。这包括网络欺凌、仇恨言论和相关现象。该任务的数据现已可供下载，下载链接可在下方找到。

任务6-2：有害性质

在该任务中，参与者需要区分三类推文：0（无害）、1（网络欺凌）和2（仇恨言论）。关于网络欺凌和仇恨言论有各种定义，其中一些甚至将这两个现象归为同一组。我们为这两者的注释基于条件在十年的研究中逐步确定，这些条件将在任务的介绍性论文中进行总结。然而，区分这两者的主要和最终条件是有害行为是否针对私人个体（网络欺凌）还是公众个体/实体/大群体（仇恨言论）。

支持的任务和排行榜

[需要更多信息]

语言

波兰语

数据集结构

数据实例

[需要更多信息]

数据字段

text：提供的推文
label：对于任务6-1，标签可以是0（无害）或1（有害）；对于任务6-2，标签可以是0（无害）、1（网络欺凌）或2（仇恨言论）

数据拆分

训练集和测试集

数据集创建

策展理由

[需要更多信息]

源数据

数据收集和规范化

[需要更多信息]

谁是源语言生成者？

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策展人

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@proceedings{ogr:kob:19:poleval,
  editor    = {Maciej Ogrodniczuk and Łukasz Kobyliński},
  title     = {{Proceedings of the PolEval 2019 Workshop}},
  year      = {2019},
  address   = {Warsaw, Poland},
  publisher = {Institute of Computer Science, Polish Academy of Sciences},
  url       = {http://2019.poleval.pl/files/poleval2019.pdf},
  isbn      = "978-83-63159-28-3"}
}

贡献者

感谢 @czabo 添加了这个数据集。

作者:

佚名

数据集大小:

16.85 KB