数据集:

poleval2019_cyberbullying

语言:

pl

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

Poleval 2019网络欺凌数据集卡片

数据集概况

任务6-1:有害 vs 无害

在该任务中,参与者需要区分正常/无害的推文(类别:0)以及包含任何形式有害信息的推文(类别:1)。这包括网络欺凌、仇恨言论和相关现象。该任务的数据现已可供下载,下载链接可在下方找到。

任务6-2:有害性质

在该任务中,参与者需要区分三类推文:0(无害)、1(网络欺凌)和2(仇恨言论)。关于网络欺凌和仇恨言论有各种定义,其中一些甚至将这两个现象归为同一组。我们为这两者的注释基于条件在十年的研究中逐步确定,这些条件将在任务的介绍性论文中进行总结。然而,区分这两者的主要和最终条件是有害行为是否针对私人个体(网络欺凌)还是公众个体/实体/大群体(仇恨言论)。

支持的任务和排行榜

[需要更多信息]

语言

波兰语

数据集结构

数据实例

[需要更多信息]

数据字段

  • text:提供的推文
  • label:对于任务6-1,标签可以是0(无害)或1(有害);对于任务6-2,标签可以是0(无害)、1(网络欺凌)或2(仇恨言论)

数据拆分

训练集和测试集

数据集创建

策展理由

[需要更多信息]

源数据

数据收集和规范化

[需要更多信息]

谁是源语言生成者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策展人

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@proceedings{ogr:kob:19:poleval,
  editor    = {Maciej Ogrodniczuk and Łukasz Kobyliński},
  title     = {{Proceedings of the PolEval 2019 Workshop}},
  year      = {2019},
  address   = {Warsaw, Poland},
  publisher = {Institute of Computer Science, Polish Academy of Sciences},
  url       = {http://2019.poleval.pl/files/poleval2019.pdf},
  isbn      = "978-83-63159-28-3"}
}

贡献者

感谢 @czabo 添加了这个数据集。