===============================
该数据集用于衡量情感分析下游任务中的性别公正性。该数据集是SST数据的子集,经过过滤,只保留包含性别信息的句子。创建该数据集的Python代码可以在prepare_sst.ipyth文件中找到。
==============================
每个句子都有两个现有的标签:
'gender'标签有两个标签:
对于每个句子,您需要标注它的情感是否针对有性别指向的人,即性别标签是否正确。
性别标签不正确的主要方式有两种:1)情感不针对有性别指向的人/角色,或者2)情感针对有性别指向的人/角色,但性别标签错误。
请标注1表示句子标签正确,标注0表示不正确。(情感标签应该是高质量的,所以我们主要检查性别是否正确标注。)
一些澄清说明:
情感针对的是“她”。
情感针对的是男性导演。
情感针对的是戴维斯,她被代词“她”确定了性别。
这个句子被标记为'femm',因为里面有单词'miss',但情感实际上不是针对女性人物的(我们不知道导演的性别)。
情感是针对电影的,或者也许是导演,但不是男性作者。
情感针对的是表演,而不是具体的人物或角色。
与上述类似,情感针对的是电影的关注点,即使该关注点可能具有性别,我们只保留情感针对有性别指向的人或角色的句子。
====================
最终数据集包含以下列:
句子:包含情感的句子。
标签:如果句子的情感是正向或负向的标签。
性别:句子中情感目标的性别。
A1:第一个标注者的注释。("1"表示"gender"列中的性别是句子的目标,"0"表示相反)
A2:第二个标注者的注释。("1"表示"gender"列中的性别是句子的目标,"0"表示相反)
A3:第三个标注者的注释。("1"表示"gender"列中的性别是句子的目标,"0"表示相反)
Keep:一个布尔值,指示是否保留此句子。"Keep"表示此句子的性别由多个标注者标记为正确。
agreement:同意标签的注释者数量。
correct:给出大多数标签的标注者数量。
incorrect:给出少数标签的标注者数量。
该数据集已经准备好使用,因为大多数人工标注者一致同意这些句子的情感针对了"gender"列中提到的性别。
==============
@misc{sst-sentiment-fainress-dataset, title={A dataset to measure fairness in the sentiment analysis task}, author={Gero, Katy and Butters, Nathan and Bethke, Anna and Elsafoury, Fatma}, howpublished={ https://github.com/efatmae/SST_sentiment_fairness_data} , year={2023}}