数据集:
thai_toxicity_tweet
任务:
文本分类语言:
th计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
cc-by-nc-3.0《泰语有害tweet语料库》包含3300条推文(其中506条推文的文本缺失),由人工进行注释,并根据一个44个词的字典进行标注。作者获得了2027条有害推文和1273条非有害推文,并由三位注释者标记。语料库的分析结果表明,包含有害词汇的推文并不总是有害的。若推文包含了表示其原始含义的有害词汇,则其更可能是有害的。此外,注释中的不一致主要是由于讽刺、未明确的目标和词义模糊造成的。
数据清洗者的注意事项:数据于2020年12月被添加至 huggingface/datasets 。截至此时,506条推文不再公开。我们在tweet_text中用TWEET_NOT_FOUND来表示这些推文。相关处理详见 this PR 。
文本分类
泰语(th)
{'is_toxic': 0, 'nontoxic_votes': 3, 'toxic_votes': 0, 'tweet_id': '898576382384418817', 'tweet_text': 'วันๆ นี่คุยกะหมา แมว หมู ไก่ ม้า ควาย มากกว่าคุยกับคนไปละ'} {'is_toxic': 1, 'nontoxic_votes': 0, 'toxic_votes': 3, 'tweet_id': '898573084981985280', 'tweet_text': 'ควายแดงเมิงด่ารัฐบาลจนรองนายกป่วย พวกมึงกำลังทำลายชาติรู้มั้ย มั้ย มั้ย มั้ยยยยยยยยย news.voicetv.co.th/thailand/51672…'}
"tweet_id": 推特上的推文ID,"tweet_text": 推文的文本,"toxic_votes": 三位注释者中认为有害的票数,"nontoxic_votes": 三位注释者中认为不是有害的票数,"is_toxic": 若推文有害则为1,否则为0(以多数票决定)
没有明确给出划分。
该数据集是作为 Sirihattasak et al (2019) 的一部分创建的。
作者使用公共的Twitter搜索API,根据关键词字典在2017年1月至12月期间收集了9819条推文。然后,他们为每个关键词选择了75条推文。总共收集了3300条用于注释的推文。为了确保数据质量,他们设置了以下选择条件。
所有的标签、转推和链接都被从这些推文中移除。然而,他们并没有删除表情符号,因为这些情感图标可以暗示发布者的真实意图。此外,在标注的情况下,一些条目,如著名人物的姓名,被替换为“<ไม่ขอเปิดเผยชื่อ>”标签,以确保匿名,以防止个体偏见。
源语言出处是谁?泰国的Twitter用户
我们使用两个标签(有害和非有害)对数据集进行手动标注。我们定义有害消息为根据有害定义而表明任何有害、破坏或负面意图的消息。此外,所有的推文都由三位标注者进行注释以识别有害性。下面列出了用于识别有害性的条件。
我们严格向所有的标注者介绍这些概念,并要求他们进行一次小测试,以确保他们理解这些条件。注释过程分为两轮。我们要求候选人在第一轮中注释他们的答案以了解我们的标注标准。然后,我们要求他们对不同的数据集进行注释,并选择在第二轮中获得满分的候选人作为标注者。在这些标注者中,有20%的标注者没有通过第一轮,因此没有参与最终的标注。
谁是标注者?Sirihattasak et al (2019) 雇佣的三位标注者
尽管所有的推文都是公开的,但由于有害推文的性质,可能会出现个人攻击和使用有害语言的情况。
CC-BY-NC 3.0
@article{sirihattasak2019annotation, title={Annotation and Classification of Toxicity for Thai Twitter}, author={Sirihattasak, Sugan and Komachi, Mamoru and Ishikawa, Hiroshi}, year={2019} }
感谢 @cstorm125 添加了这个数据集。