MIT开发AI系统,自动消除数据偏差
2019年01月28日 由 浅浅 发表
334864
0
算法中的偏差比想象中的更常见。在最近的另一项研究中,谷歌和亚马逊制造的流行智能扬声器理解非美国口音的可能性要低30%。MIT CSAIL的研究人员正在积极寻求解决方案。
在论文“Uncovering and Mitigating Algorithmic Bias through Learned Latent Structure”中,研究人员描述了一个AI系统,可以通过重新采样来自动消除数据偏差,使数据更加平衡。他们声称,当在专门设计用于测试计算机视觉系统中的偏差的数据集上进行评估时,它表现出优越的性能,分类偏差减少。
“面部分类是一种经常被视为已成熟的技术,尽管数据集没有得到适当的审查,”论文作者Alexander Amini表示,“纠正这些问题相当重要,因为这些算法开始被用于安全,执法和其他领域。”
这不是MIT第一次挑战这个问题。在2018年的论文中,David Sontag教授及其同事描述了一种减少AI偏差而不降低预测结果准确性的方法。
但最新的方法采用了一种新颖的,半监督的端到端深度学习算法,该算法同时学习所需的任务以及训练数据的潜在结构。后一种学习使其能够发现训练数据中隐藏或隐含的偏差,并在训练期间自动消除该偏差,而无需数据预处理或注释。
去偏过程
研究人员AI系统的核心是变分自动编码器(VAE),一种神经网络包括编码器,解码器和损失函数。编码器将原始输入映射到特征表示,而解码器将特征表示作为输入,使用它们进行预测,并生成输出。损失函数测量算法对给定数据建模的程度。
在提出的DB-VAE中,编码器学习给定数据点的潜在变量的真实分布的近似,而解码器从潜在空间重建输入。解码的重建实现了训练过程中潜在变量的无监督学习。
为了验证具有去偏算法在现实中的应用,研究人员使用包含40万个图像的数据集训练DB-VAE模型,分别将80%和20%分成训练和验证数据集。然后,他们在PPB测试数据集上对其进行了评估,该数据集包含来自非洲和欧洲各国的1270名男女议员的图像。
结果很有希望。根据研究人员的说法,DB-VAE不仅学会了面部特征,如肤色和头发,还学会了性别和年龄等其他特征。与在个人人口统计(种族/性别)和PPB数据集整体上受到和不受影响的模型相比,DB-VAE显示出更高的准确性并降低了种族和性别的分类偏差。
“公平的系统的开发和部署对于防止意外歧视和确保长期接受这些算法至关重要,”共同作者写道,“我们设想,提出的方法将作为一个额外的工具,以促进系统和算法的公平的现代AI系统。”
论文:
www.aies-conference.com/wp-content/papers/main/AIES-19_paper_220.pdf