数据集:

hate_speech_pl

英文

HateSpeechPl 数据集卡片

数据集摘要

该数据集是为了分析自动识别波兰语中的仇恨言论的可能性而创建的。它是从波兰论坛收集的,代表了针对少数群体表达的各种类型和程度的冒犯性语言。

原始数据集是作为MySQL表的导出提供的,这使得加载变得困难。因此,它被转换为CSV并放在了Github仓库中。

支持的任务和排行榜

  • 文本分类:该数据集可用于对不同目标领域进行文本分类,例如是否存在讽刺/讽刺、描述的少数群体或主题。
  • 文本评分:情感分析是数据集上可解决的另一项任务。

语言

波兰语,从公共论坛中收集,包括文本的HTML格式。

数据集结构

数据实例

数据集由三个集合组成,原始数据集作为单独的MySQL表提供。此处表示为三个CSV文件。

{
  'id': 1,
  'text_id': 121713,
  'annotator_id': 1,
  'minority_id': 72,
  'negative_emotions': false,
  'call_to_action': false,
  'source_of_knowledge': 2,
  'irony_sarcasm': false,
  'topic': 18,
  'text': ' <font color=\"blue\"> Niemiec</font> mówi co innego',
  'rating': 0
}

数据字段

列出并描述数据集中存在的字段。提到它们的数据类型,以及它们是否在数据集当前支持的任何任务中用作输入或输出。如果数据具有跨度索引,请描述它们的属性,例如它们是字符级还是单词级,它们是连续的还是不连续的等等。如果数据集包含示例ID,请说明它们是否具有固有含义,例如与其他数据集的映射或指向数据点之间的关系。

  • id:条目的唯一标识符
  • text_id:文本标识符,在单个文本由不同的注释者多次评分时有用
  • annotator_id:注释文本的人的标识符
  • minority_id:文本中所描述的少数群体的内部标识符
  • negative_emotions:文本中存在负面情绪的布尔指示符
  • call_to_action:如果文本呼吁受众采取任何行动,则设置为true,通常伴有负面情绪
  • source_of_knowledge:描述帖子评级知识来源的分类变量-0、1或2(直接、词法或语境的,但无法找到不同值的含义描述)
  • irony_sarcasm:具有讽刺或嘲讽的存在的布尔指示符
  • topic:文本所涉及的主题的内部标识符
  • text:帖子文本内容
  • rating:整数值,从0到4-值越高,文本内容越负面

数据拆分

数据集最初没有拆分。

数据集创建

策划理由

[需要更多信息]

源数据

数据集是从公共论坛收集的。

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

谁是源语言制作者?

[需要更多信息]

注释

[需要更多信息]

注释流程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

数据集不包含任何个人或敏感信息。

使用数据时的注意事项

数据集的社会影响

使用数据集的主要有益结果是自动识别仇恨言论。

偏见讨论

该数据集仅包含负面帖子,因此可能无法充分代表整个语言。

其他已知限制

仅供研究目的提供数据集。有关其他信息,请查阅数据集许可证。

其他信息

数据集策划者

该数据集是Marek Troszyński和Aleksander Wawer在 IPI PAN 完成的工作期间创建的。

许可信息

根据 Metashare ,该数据集的许可为CC-BY-NC-SA,但未提及版本。

引用信息

@article{troszynski2017czy,
  title={Czy komputer rozpozna hejtera? Wykorzystanie uczenia maszynowego (ML) w jako{\'s}ciowej analizie danych},
  author={Troszy{\'n}ski, Marek and Wawer, Aleksandra},
  journal={Przegl{\k{a}}d Socjologii Jako{\'s}ciowej},
  volume={13},
  number={2},
  pages={62--80},
  year={2017},
  publisher={Uniwersytet {\L}{\'o}dzki, Wydzia{\l} Ekonomiczno-Socjologiczny, Katedra Socjologii~…}
}

贡献

感谢 @kacperlukawski 添加了该数据集。