数据集:

thai_toxicity_tweet

语言:

th

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original
英文

thai_toxicity_tweet数据集卡片

数据集摘要

《泰语有害tweet语料库》包含3300条推文(其中506条推文的文本缺失),由人工进行注释,并根据一个44个词的字典进行标注。作者获得了2027条有害推文和1273条非有害推文,并由三位注释者标记。语料库的分析结果表明,包含有害词汇的推文并不总是有害的。若推文包含了表示其原始含义的有害词汇,则其更可能是有害的。此外,注释中的不一致主要是由于讽刺、未明确的目标和词义模糊造成的。

数据清洗者的注意事项:数据于2020年12月被添加至 huggingface/datasets 。截至此时,506条推文不再公开。我们在tweet_text中用TWEET_NOT_FOUND来表示这些推文。相关处理详见 this PR

支持的任务和排行榜

文本分类

语言

泰语(th)

数据集结构

数据实例

{'is_toxic': 0, 'nontoxic_votes': 3, 'toxic_votes': 0, 'tweet_id': '898576382384418817', 'tweet_text': 'วันๆ นี่คุยกะหมา แมว หมู ไก่ ม้า ควาย มากกว่าคุยกับคนไปละ'}
{'is_toxic': 1, 'nontoxic_votes': 0, 'toxic_votes': 3, 'tweet_id': '898573084981985280', 'tweet_text': 'ควายแดงเมิงด่ารัฐบาลจนรองนายกป่วย พวกมึงกำลังทำลายชาติรู้มั้ย มั้ย มั้ย มั้ยยยยยยยยย news.voicetv.co.th/thailand/51672…'}

数据字段

"tweet_id": 推特上的推文ID,"tweet_text": 推文的文本,"toxic_votes": 三位注释者中认为有害的票数,"nontoxic_votes": 三位注释者中认为不是有害的票数,"is_toxic": 若推文有害则为1,否则为0(以多数票决定)

数据划分

没有明确给出划分。

数据集创建

策划理由

该数据集是作为 Sirihattasak et al (2019) 的一部分创建的。

源数据

初始数据收集和归一化

作者使用公共的Twitter搜索API,根据关键词字典在2017年1月至12月期间收集了9819条推文。然后,他们为每个关键词选择了75条推文。总共收集了3300条用于注释的推文。为了确保数据质量,他们设置了以下选择条件。

  • 所有推文都是由人类选择的,以防止单词的多义性。(Twitter API会根据关键词中的字符选择推文。例如,在“บ้า(疯狂)”的情况下,API也会选择“บ้านนอก”(乡村),这不是我们的目标。)
  • 推文的长度应足够长,以便识别推文的上下文。因此,他们将最小限制设置为五个词。
  • 不考虑仅包含极具有害性的词语的推文(例如:“damn, retard, bitch, f*ck, slut!!!”)。
  • 此外,如果推文中包含的英文单词不是标签决策的关键要素(例如“f*ck”),则允许包含英文单词。结果是,我们的语料库包含了一些英文单词,但它们占总数的不到2%。
  • 所有的标签、转推和链接都被从这些推文中移除。然而,他们并没有删除表情符号,因为这些情感图标可以暗示发布者的真实意图。此外,在标注的情况下,一些条目,如著名人物的姓名,被替换为“<ไม่ขอเปิดเผยชื่อ>”标签,以确保匿名,以防止个体偏见。

    源语言出处是谁?

    泰国的Twitter用户

    标注

    标注过程

    我们使用两个标签(有害和非有害)对数据集进行手动标注。我们定义有害消息为根据有害定义而表明任何有害、破坏或负面意图的消息。此外,所有的推文都由三位标注者进行注释以识别有害性。下面列出了用于识别有害性的条件。

    • 有害消息是应该被删除或不应在公共场合出现的消息。
    • 消息的目标或后果必须存在。它可以是个人,也可以是基于共同点(如宗教或种族)的一般群体,或者整个社区。
    • 自我抱怨不被视为有害,因为它对任何人都没有伤害。然而,如果自我抱怨意图表明了某些不好的东西,那么它将被视为有害的。
    • 直接和间接的消息,包括讽刺的消息,都会被考虑在内。

    我们严格向所有的标注者介绍这些概念,并要求他们进行一次小测试,以确保他们理解这些条件。注释过程分为两轮。我们要求候选人在第一轮中注释他们的答案以了解我们的标注标准。然后,我们要求他们对不同的数据集进行注释,并选择在第二轮中获得满分的候选人作为标注者。在这些标注者中,有20%的标注者没有通过第一轮,因此没有参与最终的标注。

    谁是标注者?

    Sirihattasak et al (2019) 雇佣的三位标注者

    个人和敏感信息

    尽管所有的推文都是公开的,但由于有害推文的性质,可能会出现个人攻击和使用有害语言的情况。

    使用数据的注意事项

    数据集的社会影响

    • 有害社交媒体消息分类数据集

    偏见讨论

    • 在标注之前,注释者会对用户进行掩盖,以防止基于推文作者的偏见

    其他已知限制

    • 数据于2020年12月被添加至 huggingface/datasets 。截至此时,有506条推文不再公开。我们在tweet_text中用TWEET_NOT_FOUND表示这些推文。

    其他信息

    数据集编辑

    Sirihattasak et al (2019)

    许可信息

    CC-BY-NC 3.0

    引文信息

    请在使用数据集时引用以下内容:
    @article{sirihattasak2019annotation,
      title={Annotation and Classification of Toxicity for Thai Twitter},
      author={Sirihattasak, Sugan and Komachi, Mamoru and Ishikawa, Hiroshi},
      year={2019}
    }
    

    贡献

    感谢 @cstorm125 添加了这个数据集。