数据集:

hope_edi

英文

[数据集名称] 的数据集卡

数据集概述

这是一个关于平等、多样性和包容(HopeEDI)的希望言论数据集,包含了来自社交媒体平台YouTube的用户生成评论,分别进行了英语、泰米尔语和马拉雅拉姆语的手动标记,分为希望言论和非希望言论。据我们所知,这是第一次在多语言环境中对平等、多样性和包容的希望言论进行注释的研究。

支持的任务和排行榜

用于识别社交媒体评论/帖子中的希望言论。

语言

英语、泰米尔语和马拉雅拉姆语

数据集结构

数据实例

英语数据集的示例如下:

text label
all lives matter .without that we never have peace so to me forever all lives matter. Hope_speech
I think it's cool that you give people a voice to speak out with here on this channel. Hope_speech

泰米尔语数据集的示例如下:

text label
Idha solla ivalo naala Non_hope_speech
இன்று தேசிய பெண் குழந்தைகள் தினம்.. பெண் குழந்தைகளை போற்றுவோம்..அவர்களை பாதுகாப்போம்... Hope_speech

马拉雅拉姆语数据集的示例如下:

text label
ഇത്രെയും കഷ്ടപ്പെട്ട് വളർത്തിയ ആ അമ്മയുടെ മുഖം കണ്ടപ്പോൾ കണ്ണ് നിറഞ്ഞു പോയി Hope_speech
snehikunavar aanayalum pennayalum onnichu jeevikatte..aareyum compel cheythitallalooo..parasparamulla ishtathodeyalle...avarum jeevikatte..?? Hope_speech

数据字段

英语

  • text: 英语评论。
  • 标签: 可能的取值列表: "希望言论","非希望言论","非英语"。

泰米尔语

  • text: 泰米尔语-英语混合评论。
  • 标签: 可能的取值列表: "希望言论","非希望言论","非泰米尔语"。

马拉雅拉姆语

  • text: 马拉雅拉姆语-英语混合评论。
  • 标签: 可能的取值列表: "希望言论","非希望言论","非马拉雅拉姆语"。

数据切分

train validation
English 22762 2843
Tamil 16160 2018
Malayalam 8564 1070

数据集创建

策划理由

希望被健康专业人士认为对人类生命的福祉、康复和恢复至关重要。没有现有的针对混合泰米尔语和混合马拉雅拉姆语的仇恨言论或冒犯性语言检测数据集,并且现有数据集没有考虑到LGBTIQ、STEM领域的女性和其他少数群体。因此,我们无法使用现有的仇恨言论或冒犯性语言检测数据集来检测希望或非希望言论,以满足少数群体的平等、多样性和包容的需求。

源数据

初始数据收集和标准化

对于英语,我们从YouTube视频评论中收集了有关EDI的最新话题的数据,包括STEM领域的女性、LGBTIQ问题、COVID-19、黑人的命也重要、英国与中国、美国与中国以及澳大利亚与中国。数据收集自来自澳大利亚、加拿大、爱尔兰共和国、英国、美国和新西兰等讲英语的国家/地区的人们的视频。

对于泰米尔语和马拉雅拉姆语,我们从印度收集了有关LGBTIQ问题、COVID-19、STEM领域的女性、中印战争和德拉维多人事务的最新话题的数据。

源语言生成者是谁?

YouTube用户

注释

注释过程

我们创建了Google表单来收集注释。每个表单最多包含100条评论,每页最多包含10条评论,以保证注释质量。我们收集了注释者的性别、教育背景和学校的介质信息,以了解注释者的多样性并避免偏见。我们通过为注释者提供有关EDI的YouTube视频来进行教育。每个表单至少由三个注释者进行注释。

注释者是谁?

对于英语评论,注释者来自澳大利亚、爱尔兰共和国、英国和美国。对于泰米尔语,我们能够从印度的泰米尔纳德邦和斯里兰卡获得注释。大多数注释者是本科或研究生学生。

个人和敏感信息

社交媒体数据具有很高的敏感性,尤其是涉及LGBTIQ社群或女性等少数群体时更是如此。我们已经充分考虑到了最大限度减少数据中涉及个人身份的风险,例如删除了姓名等个人信息,但保留了与以下特征相关的信息,如种族、性别、性取向、民族来源和哲学信仰。注释者只能看到匿名的帖子,并同意不尝试联系评论的创建者。该数据集仅供同意遵守道德准则的研究人员用于研究目的。

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划人员

[需要更多信息]

许可信息

该作品根据 Creative Commons Attribution 4.0 International Licence 授权。

引用信息

@inproceedings{chakravarthi-2020-hopeedi,
title = "{H}ope{EDI}: A Multilingual Hope Speech Detection Dataset for Equality, Diversity, and Inclusion",
author = "Chakravarthi, Bharathi Raja",
booktitle = "Proceedings of the Third Workshop on Computational Modeling of People's Opinions, Personality, and Emotion's in Social Media",
month = dec,
year = "2020",
address = "Barcelona, Spain (Online)",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.peoples-1.5",
pages = "41--53",
abstract = "Over the past few years, systems have been developed to control online content and eliminate abusive, offensive or hate speech content. However, people in power sometimes misuse this form of censorship to obstruct the democratic right of freedom of speech. Therefore, it is imperative that research should take a positive reinforcement approach towards online content that is encouraging, positive and supportive contents. Until now, most studies have focused on solving this problem of negativity in the English language, though the problem is much more than just harmful content. Furthermore, it is multilingual as well. Thus, we have constructed a Hope Speech dataset for Equality, Diversity and Inclusion (HopeEDI) containing user-generated comments from the social media platform YouTube with 28,451, 20,198 and 10,705 comments in English, Tamil and Malayalam, respectively, manually labelled as containing hope speech or not. To our knowledge, this is the first research of its kind to annotate hope speech for equality, diversity and inclusion in a multilingual setting. We determined that the inter-annotator agreement of our dataset using Krippendorff{'}s alpha. Further, we created several baselines to benchmark the resulting dataset and the results have been expressed using precision, recall and F1-score. The dataset is publicly available for the research community. We hope that this resource will spur further research on encouraging inclusive and responsive speech that reinforces positiveness.",
}

贡献者

感谢 @jamespaultg 添加了这个数据集。