计算机视觉系统无处不在。它们帮助对社交媒体上的图片进行分类和标记,检测图片和视频中的物体和人脸,并突出显示图像的相关元素。然而,它们充满了偏见,当图像显示黑人或棕色人种和女性时,它们的准确性就会降低。而且还有另一个问题:目前研究者发现这些系统中的偏见的方法本身就是有偏见的,它们将人们分为粗略的类别,没有充分考虑到人类之间存在的复杂性。
索尼和Meta的研究人员在两篇新论文中提出了一些方法,来衡量计算机视觉系统中的偏见,以便更全面地捕捉人类的丰富多样性。这两篇论文将在10月的计算机视觉会议ICCV上展示。开发者可以使用这些工具来检查他们的数据集的多样性,从而帮助产生更好、更多样化的AI训练数据。这些工具也可以用来衡量由生成式AI产生的人类图像的多样性。
传统上,计算机视觉中的肤色偏见是用Fitzpatrick量表来衡量的,它从浅到深进行测量。索尼AI伦理研究员William Thong说,这个量表最初是用来测量白人皮肤的晒黑程度的,但后来被广泛地用作确定种族的工具。它被用来通过比较AI模型对浅肤色和深肤色人群的准确性来衡量计算机系统中的偏见。
但是用一个一维的量表来描述人们的肤色是误导性的,索尼AI伦理全球负责人Alice Xiang说。通过根据这个粗略的量表将人们分为不同的群体,研究者忽略了影响例如亚洲人等群体的偏见,他们在西方AI数据集中代表性不足,并且可以同时属于浅肤色和深肤色类别。而且它也没有考虑到人们肤色变化的事实。例如,研究者指出,亚洲人皮肤随着年龄增长会变得更黑更黄,而白人皮肤会变得更黑更红。
Thong和Xiang的团队开发了一个工具——他们独家分享给《麻省理工科技评论》——将肤色量表扩展到二维,同时测量肤色(从浅到深)和肤色(从红到黄)。索尼将这个工具免费提供在线。
Thong说他受到了巴西艺术家Angélica Dass的启发,她的作品显示了来自相似背景的人可以有各种各样的肤色。但是表示肤色全方位的想法并不新鲜。化妆品行业已经使用了同样的技术多年。
“对于任何曾经选择过粉底色号的人……你都知道不仅要看某人的肤色是浅还是深,还要看它是暖调还是冷调,”Xiang说。
索尼在肤色方面的工作“提供了一个洞察,这是人们一直忽视的一个缺失的组成部分,”Rice大学助理教授Guha Balakrishnan说,他研究过计算机视觉模型中的偏见。
衡量偏见
目前,研究者衡量计算机视觉中的偏见没有一个统一的标准方法,这使得比较不同系统变得更加困难。
为了使偏见评估更加流畅,Meta开发了一种新的方法来衡量计算机视觉模型中的公平性,称为计算机视觉评估中的公平性(FACET),它可以用于一系列常见的任务,如分类、检测和分割。Meta的AI研究员Laura Gustafson说,FACET是第一个包含多种计算机视觉任务的公平性评估,并且它包含了比其他偏见工具更广泛的公平性指标。
为了创建FACET,Meta收集了3.2万张人类图像,并雇佣了来自世界各地的标注者对它们进行标注。标注者被要求用13种不同的视觉属性来标注图像,如他们感知的年龄、肤色、性别表现、头发颜色和质地等等。他们还要求标注者根据人们正在做什么或者他们看起来是什么职业来标注人物,如理发师、滑板手、学生、音乐家或体操运动员。研究者说,这增加了偏见评估的细致度和准确度。
Meta然后用FACET来评估最先进的视觉模型对不同群体人群的表现;结果显示出很大的差异。例如,模型在检测肤色较浅的人时表现更好,即使他们有绞发或卷发。
由于世界各地的人们对评价其他人的图像带有自己的偏见,Meta努力招募地理上多样化的标注者是积极的,普林斯顿大学博士研究员Angelina Wang说,她研究过计算机视觉模型中的偏见。
Meta将其数据免费提供在线也将有助于研究者。标注数据非常昂贵,所以它只能在大规模上被大型科技公司所接触。“这是一个受欢迎的补充,”Balakrishnan说。
但Wang警告说,保持现实是明智的,这些系统能产生多大的影响。它们可能会带来一些小的改进,而不是AI的转变。
“我认为我们离接近真正捕捉人类如何表达自己还很远,可能我们永远也达不到,”她说。