数据集:

fatmaElsafoury2022/SST_sentiment_fairness_data

英文

情感公正数据集

===============================

该数据集用于衡量情感分析下游任务中的性别公正性。该数据集是SST数据的子集,经过过滤,只保留包含性别信息的句子。创建该数据集的Python代码可以在prepare_sst.ipyth文件中找到。

然后,被四位人工标注者(也是数据集的作者)标记。下面是标注说明。

标注说明

==============================

每个句子都有两个现有的标签:

  • 'label'给出情感分数
  • 'gender'给出情感目标的猜测性别

'gender'标签有两个标签:

  • 'masc'表示男性化词语,如'he'或'father'
  • 'femm'表示女性化词语,如'she'或'mother'

对于每个句子,您需要标注它的情感是否针对有性别指向的人,即性别标签是否正确。

性别标签不正确的主要方式有两种:1)情感不针对有性别指向的人/角色,或者2)情感针对有性别指向的人/角色,但性别标签错误。

请标注1表示句子标签正确,标注0表示不正确。(情感标签应该是高质量的,所以我们主要检查性别是否正确标注。)

一些澄清说明:

  • 如果情感是针对具有不同性别的多个人,标注为0;在这种情况下,情感的主体不针对单一性别。
  • 如果情感是针对电影或其主题的,即使电影或主题似乎有性别,也标注为0;在这种情况下,情感的主体不是人物或角色(而是一个主题)。
  • 如果情感是针对一个具名的人物或角色,并且您认为可以推断性别,请不要这样做!我们只标注句子中主体本身具有性别的情况。

正例(您需要标注为1)

  • 句子:她表现得非常出色。
  • 标签:0.8
  • 性别:femm

情感针对的是“她”。

  • 句子:导演从演员中获得了出色的表演。
  • 标签:0.7
  • 性别:masc

情感针对的是男性导演。

  • 句子:戴维斯作为表演者足够迷人,但她需要改变一下,并且加入一些不像半熟的单口相声的东西。
  • 标签:0.4
  • 性别:femm

情感针对的是戴维斯,她被代词“她”确定了性别。

反例(您需要标注为0)

  • 句子:这位新导演差一点成功。
  • 标签:0.3
  • 性别:femm

这个句子被标记为'femm',因为里面有单词'miss',但情感实际上不是针对女性人物的(我们不知道导演的性别)。

  • 句子:这本糟糕的书籍改编电影肯定让作者在坟墓中翻滚。
  • 标签:0.2
  • 性别:masc

情感是针对电影的,或者也许是导演,但不是男性作者。

  • 句子:尽管有典型的母女剧情,出色的表演使这部电影成为一个迷人的作品。
  • 标签:0.8
  • 性别:femm

情感针对的是表演,而不是具体的人物或角色。

  • 句子:影片对年轻女性的不健全关注和她幼稚的梦想就像最糟糕的好莱坞撩动心弦。
  • 标签:0.8
  • 性别:femm

与上述类似,情感针对的是电影的关注点,即使该关注点可能具有性别,我们只保留情感针对有性别指向的人或角色的句子。

  • 句子:洛曼适应了对她要求的变化,但女演员和导演彼得·科斯明斯基从未让观众突破她的角色设定。
  • 标签:0.4
  • 性别:femm

情感针对的是女演员和导演,他们可能具有不同的性别。

最终数据集

====================

最终数据集包含以下列:

句子:包含情感的句子。

标签:如果句子的情感是正向或负向的标签。

性别:句子中情感目标的性别。

A1:第一个标注者的注释。("1"表示"gender"列中的性别是句子的目标,"0"表示相反)

A2:第二个标注者的注释。("1"表示"gender"列中的性别是句子的目标,"0"表示相反)

A3:第三个标注者的注释。("1"表示"gender"列中的性别是句子的目标,"0"表示相反)

Keep:一个布尔值,指示是否保留此句子。"Keep"表示此句子的性别由多个标注者标记为正确。

agreement:同意标签的注释者数量。

correct:给出大多数标签的标注者数量。

incorrect:给出少数标签的标注者数量。

该数据集已经准备好使用,因为大多数人工标注者一致同意这些句子的情感针对了"gender"列中提到的性别。

引用

==============

@misc{sst-sentiment-fainress-dataset, title={A dataset to measure fairness in the sentiment analysis task}, author={Gero, Katy and Butters, Nathan and Bethke, Anna and Elsafoury, Fatma}, howpublished={ https://github.com/efatmae/SST_sentiment_fairness_data} , year={2023}}