文本到图像(T2I)生成式人工智能工具越来越强大和普及,它们可以根据输入的少数单词创建几乎任何图像。T2I生成式人工智能可以创建逼真的照片和视频,这些工具在从艺术到政治宣传等多种用途中越来越多地被使用。
然而,支撑这些工具的算法模型是基于人类数据训练的,并且可以在它们产生的图像中复制人类的偏见,比如性别和肤色的偏见。这些偏见可能对弱势群体造成伤害,强化刻板印象,可能导致歧视。
为了解决这些隐含的偏见,加州大学圣克鲁兹分校巴斯金工程学院的计算机科学与工程学助理教授Eric Wang和他的研究团队创建了一个名为“文本与图像关联测试”的工具,用来量化嵌入在T2I模型中的复杂人类偏见,并评估跨性别、种族、职业和宗教等不同维度的偏见。他们使用这个工具来识别和量化处于最先进的生成模型Stable Diffusion中的偏见。
该工具在2023年计算语言学协会(ACL)会议的一篇论文中详细介绍,并可在演示版中使用。
论文的第一作者、加州大学圣克鲁兹分校计算机科学与工程学博士研究生Jialu Wang表示:“我认为模型的拥有者和用户都关心这个问题。如果用户来自一个非特权群体,他们可能不希望看到生成的图像中只反映特权群体。”
要使用这个工具,用户必须告诉模型生成一个中性提示的图片,例如“学习科学的孩子”。接下来,用户输入性别特定的提示,比如“学习科学的女孩”和“学习科学的男孩”。然后,该工具计算生成的图片与中性提示和每个特定提示之间的距离。这两个距离之间的差异就是偏见的量化衡量。
使用这个工具,研究团队发现最先进的生成模型Stable Diffusion在产生的图像中复制并放大了人类的偏见。这个工具测试了两个概念(比如科学和艺术)与两个属性(比如男性和女性)之间的关联,然后给出了概念和属性之间的关联分数,并给出一个值来表示工具对该分数的自信程度。
研究团队使用他们的工具测试了模型将六组相对概念与积极或消极属性相关联。他们测试的概念有:花朵和昆虫、乐器和武器、欧洲裔美国人和非洲裔美国人、浅色皮肤和深色皮肤、直男和同性恋、犹太教和基督教。在大多数情况下,模型都按照刻板印象的模式进行关联。然而,该模型将深色皮肤关联到愉悦,将浅色皮肤关联到不愉悦,这让研究人员感到惊讶,因为这是与常见刻板印象相反的少数结果之一。
此外,他们发现该模型将科学与男性更密切地相关联,将艺术与女性更密切地相关联,将职业与男性更密切地相关联,将家庭与女性更密切地相关联。
过去,在评估T2I模型中的偏见时,技术人员需要对从模型接收的结果进行注释。例如,研究人员可能会输入一个中性的提示,比如“学习科学的孩子”,并标记模型生成男孩还是女孩的图像。但是,这种注释过程很耗费人力和成本,并且可能存在不准确性,通常只限于性别偏见。
Eric Wang说:“我们希望摆脱这种人工注释的过程,提出一种自动的工具来评估这些偏见,避免繁琐的操作。”
此外,与其他人不同,加州大学圣克鲁兹分校团队的偏见评估工具考虑了图像背景的各个方面,比如颜色和温暖度。
研究人员根据隐性联想测试开发了这个工具,隐性联想测试是社会心理学中一种用于评估人类偏见和刻板印象的众所周知的测试。该测试评估人们在概念(如“医生”或“家庭”)与属性(如“男性”或“女性”)之间的紧密关联程度。
除了评估和分析像Stable Diffusion和Midjourney这样的现有工具中的偏见之外,团队设想这个工具将使软件工程师在开发阶段获得关于模型中偏见更准确的测量结果,并跟踪他们解决这些偏见的努力。
“通过量化的衡量,人们可以努力减少这些偏见,并使用我们的工具量化他们在这方面的进展。”Eric Wang说。
研究团队表示,他们在ACL会议上展示这项工作时收到了许多其他研究人员的积极反馈。
Eric Wang说:“很多人对这项工作表现出了极大兴趣。一些研究人员立即将这项工作分享给他们的团队,并向我询问细节。”
未来,该团队计划提出建议的方法,以减轻这些偏见,无论是从头开始训练新模型,还是在微调过程中消除现有模型的偏差。