研究:AI模型无法重现人类对违规行为的判断
2023年05月16日 由 Camellia 发表
310589
0
研究报告称,使用常见数据收集技术训练的模型比人类对违规行为的判断更加严格。
研究人员发现,经过训练以模仿人类决策的机器学习模型往往比人类做出更严厉的判断。他们发现,数据的收集和标记方式会影响模型训练的准确性,从而判断是否违反了规则。
[caption id="attachment_50759" align="aligncenter" width="707"]
图片:麻省理工学院新闻,iStock数据[/caption]
为了提高公平性或减少积压,机器学习模型有时被设计成模仿人类的决策,例如决定社交媒体帖子是否违反毒品相关内容政策。
但麻省理工学院和其他地方的研究人员发现,这些模型通常无法复制人类对违规行为的决定。 如果模型没有使用正确的数据进行训练,它们可能会做出不同的,通常比人类更严格的判断。
在这种情况下,“正确的”数据是那些由人类标记的数据,他们被明确地问及是否某一条违反了某项规则。训练包括向机器学习模型展示这种“规范数据”的数百万个例子,以便它能够学习任务。
但是,用于训练机器学习模型的数据通常被标记为描述性的,这意味着人类被要求识别事实特征,例如,照片中是否存在油炸食品。 如果使用“描述性数据”来训练判断违规行为的模型,例如一顿饭是否违反了禁止油炸食品的学校政策,则模型往往会过度预测违规行为。
这种准确性的下降可能在真实的世界中产生严重影响。 例如,如果使用描述性模型来决定一个人是否有可能再次犯罪,研究人员的发现表明,它可能会做出比人类更严格的判断,这可能导致更高的保释金或更长的刑事判决。
“我认为大多数人工智能/机器学习研究人员都认为人类对数据和标签的判断是有偏见的,但这一结果表明情况更糟。这些模型甚至不能再现已经有偏见的人类判断,因为它们所训练的数据有一个缺陷:如果人类知道图像和文本的特征将被用于判断,他们就会给这些特征贴上不同的标签。这对人类过程中的机器学习系统产生了巨大的影响,”计算机科学与人工智能实验室(CSAIL)健康机器学习小组的助理教授兼负责人Marzyeh Ghassemi说。
标签的差异
这项研究源于一个不同的项目,该项目探索了机器学习模型如何证明其预测的合理性。当他们为这项研究收集数据时,研究人员注意到,如果要求人们对同一数据提供描述性或规范性的标签,他们有时会给出不同的答案。
为了收集描述性标签,研究人员要求标注者识别事实特征——这些文本是否包含淫秽语言。为了收集规范标签,研究人员给标注者一个规则,并询问数据是否违反了该规则——这些文本是否违反了平台的明确语言政策。
这一发现令人惊讶,研究人员开展了一项用户研究,以进行更深入的研究。他们收集了四个数据集来模拟不同的政策,比如狗的图像数据集,这可能违反了公寓针对攻击性品种的规定。然后他们要求各组参与者提供描述性或规范性的标签。
在每一种情况下,描述性标注者被要求指出图像或文本中是否存在三个事实特征,例如狗是否具有攻击性。然后,他们的回答被用来做出判断。(如果一个用户说一张照片里有一只具有攻击性的狗,那么就违反了政策)。标注人员并不了解宠物政策。另一方面,规范性标注者被告知禁止具有攻击性的狗的政策,然后被问及每张图片是否违反了该政策,以及为什么。
研究人员发现,在描述性的环境中,人类明显更有可能将一个物体标记为违规。他们使用标签的平均绝对差异计算出的差异范围从用于判断违反着装规定的图像数据集的8%到狗图像的20%不等。
"虽然我们没有明确测试为什么会发生这种情况,但有一个假设是,也许人们对违规行为的看法与他们对描述性数据的看法不同。一般来说,规范性的决定是比较宽松的,"Balagopalan说。
然而,数据通常是用描述性的标签收集的,以训练一个特定的机器学习任务的模型。这些数据后来经常被重新使用,以训练执行规范性判断的不同模型,如违规行为。
训练的问题
为了研究重新利用描述性数据的潜在影响,研究人员训练了两个模型,使用四种数据设置中的一种来判断违规行为。他们用描述性数据训练一个模型,用规范性数据训练另一个模型,然后比较它们的表现。
他们发现,如果使用描述性数据来训练模型,它将不如使用规范数据进行相同判断的模型。具体来说,描述性模型更有可能通过错误地预测违规行为而对输入进行错误分类。当对人类标注者不同意的对象进行分类时,描述性模型的准确性甚至更低。
“这表明数据确实很重要。如果您正在训练模型以检测是否违反了规则,那么将训练上下文与部署上下文相匹配是很重要的,”Balagopalan说。
用户很难确定数据是如何收集的;Ghassemi说,这些信息可以隐藏在研究论文的附录中,也可以不被私人公司披露。
提高数据集的透明度是缓解这个问题的一种方法。如果研究人员知道数据是如何收集的,那么他们就知道应该如何使用这些数据。另一种可能的策略是在少量规范数据上对描述性训练模型进行微调。这种被称为迁移学习的想法是研究人员希望在未来的工作中探索的东西。
他们还想与医生或律师等标签专家进行类似的研究,看看它是否会导致同样的标签差异。
“解决这个问题的方法是彻底承认,如果我们想要重现人类的判断,我们必须只使用在该环境中收集的数据。否则,我们最终将拥有一个极其苛刻的调节系统,比人类所做的要苛刻得多。 人类会看到细微差别或做出另一种区分,而这些模型没有,”Ghassemi说。