数据集:
hate_speech_pl
任务:
文本分类语言:
pl计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
cc-by-nc-sa-3.0该数据集是为了分析自动识别波兰语中的仇恨言论的可能性而创建的。它是从波兰论坛收集的,代表了针对少数群体表达的各种类型和程度的冒犯性语言。
原始数据集是作为MySQL表的导出提供的,这使得加载变得困难。因此,它被转换为CSV并放在了Github仓库中。
波兰语,从公共论坛中收集,包括文本的HTML格式。
数据集由三个集合组成,原始数据集作为单独的MySQL表提供。此处表示为三个CSV文件。
{ 'id': 1, 'text_id': 121713, 'annotator_id': 1, 'minority_id': 72, 'negative_emotions': false, 'call_to_action': false, 'source_of_knowledge': 2, 'irony_sarcasm': false, 'topic': 18, 'text': ' <font color=\"blue\"> Niemiec</font> mówi co innego', 'rating': 0 }
列出并描述数据集中存在的字段。提到它们的数据类型,以及它们是否在数据集当前支持的任何任务中用作输入或输出。如果数据具有跨度索引,请描述它们的属性,例如它们是字符级还是单词级,它们是连续的还是不连续的等等。如果数据集包含示例ID,请说明它们是否具有固有含义,例如与其他数据集的映射或指向数据点之间的关系。
数据集最初没有拆分。
[需要更多信息]
数据集是从公共论坛收集的。
[需要更多信息]
初始数据收集和规范化[需要更多信息]
谁是源语言制作者?[需要更多信息]
[需要更多信息]
注释流程[需要更多信息]
谁是注释者?[需要更多信息]
数据集不包含任何个人或敏感信息。
使用数据集的主要有益结果是自动识别仇恨言论。
该数据集仅包含负面帖子,因此可能无法充分代表整个语言。
仅供研究目的提供数据集。有关其他信息,请查阅数据集许可证。
该数据集是Marek Troszyński和Aleksander Wawer在 IPI PAN 完成的工作期间创建的。
根据 Metashare ,该数据集的许可为CC-BY-NC-SA,但未提及版本。
@article{troszynski2017czy, title={Czy komputer rozpozna hejtera? Wykorzystanie uczenia maszynowego (ML) w jako{\'s}ciowej analizie danych}, author={Troszy{\'n}ski, Marek and Wawer, Aleksandra}, journal={Przegl{\k{a}}d Socjologii Jako{\'s}ciowej}, volume={13}, number={2}, pages={62--80}, year={2017}, publisher={Uniwersytet {\L}{\'o}dzki, Wydzia{\l} Ekonomiczno-Socjologiczny, Katedra Socjologii~…} }
感谢 @kacperlukawski 添加了该数据集。