微软研究院等揭示用于训练AI模型的数据集中的偏见
2018年12月24日 由 浅浅 发表
158074
0
AI一直存在偏见问题,词嵌入是一种常见的算法训练技术,涉及将单词与向量联系起来,在源文本和对话中不可避免地隐含偏见,甚至是放大偏见。2016年的一项研究发现,谷歌新闻文章中的单词嵌入倾向于展示性别刻板印象。
研究人员正在努力解决这个问题,至少是先暴露出问题,在论文“What are the biases in my word embedding”中,微软研究院,卡内基梅隆大学和马里兰大学的科学家描述了一种算法,可以揭露公开可获得的嵌入中与敏感问题有关的攻击性联系,如种族和偏见问题。
此项研究建立在加利福尼亚大学的一项研究基础之上,这项研究详细描述了一种训练解决方案,它能够将性别信息保存在单词载体中,同时迫使其他维度不受性别影响。
“我们考虑了无监督偏差计数(UBE)的问题,从未标记的数据表示中自动发现偏差,”研究人员写道,“有很多原因可以解释为什么需要这样的算法:首先,社会科学家可以将其作为研究人类偏见的工具。其次,识别偏见是消除偏见的一个自然步骤。最后,它可以帮助避免让这些偏见长期存在的系统。”
模型采用词嵌入和目标标记列表为输入,并跨标记对使用向量相似性来衡量关联的强度。它是无监督的,在不需要预先指定敏感群体(如性别或种族)的情况下,它输出了具有统计学意义的种族、性别、宗教、年龄和其他偏见测试。
该团队表示,与手动测试设计相比,该方法具有许多优势。“手动编写所有感兴趣的测试是不可行的。领域专家通常会创建这样的测试,期望这些测试覆盖所有可能的组是不合理的,尤其是他们不知道数据中代表了哪些组,而且如果嵌入的一个词没有显示出偏见,这就是缺乏偏见的证据。”
根据团队的说法,该模型利用了词嵌入的两个属性来生成上述测试:“并行”和“集群”。并行属性利用了类似的令牌对(例如Mary-John和Queen-King)之间的差异通常几乎平行的事实,与主题中名称差异平行的那些可能代表偏见。与此同时,要指出这样一个事实,即姓名和单词的规范化向量聚成在语义意义上有意义的组,包括姓名、社会结构(如性别、宗教等),以及主题(如食物、教育、职业和体育)。
为了测试该系统,研究人员从社会保障管理局(SSA)数据库中获取了一组名字,并从三个可公开获得的词嵌入中获取了单词,并小心地删除反映其他用途的嵌入,例如月份,动词,或地点。然后确定算法发现的偏见是否与社会普遍存在的偏见一致。
结果,在一些词嵌入数据集之中,像“女主人”这样的词往往更接近“排球”而不是“角卫”,而“出租车司机”更接近“角卫”而不是“排球”。在一个案例中,他们发现38%的种族,年龄和性别关联具有攻击性。
该团队写道,与人类不同,人类需要通过内隐测试以一种直截了当的方式引出社会上不可接受的偏见,而词嵌入可以直接探测出数百种不同性质的偏见,包括许多冒犯性的、社会上不可接受的偏见。在可公开获取的词语嵌入中暴露出来的种族主义和性别歧视联想,引发了对其广泛使用的质疑。
论文:arxiv.org/pdf/1812.08769.pdf