OpenAI研究人员近期发现,用户在与ChatGPT互动时所使用的用户名,会微妙地影响AI的回答。但值得注意的是,这种影响总体非常微弱,且主要局限于较旧或未完全对齐的模型。
在这项研究中,研究人员考察了ChatGPT在接收到与各种文化、性别和种族背景相关联的不同用户名后,对相同查询的反应。由于姓名往往承载着文化、性别和种族的隐含意义,因此在研究偏见时,它们成为了一个重要的考量因素。特别是,用户通常会为ChatGPT提供他们的姓名以完成任务。
尽管ChatGPT在不同人口群体之间的整体回应质量保持一致,但在某些任务中仍显示出一些偏见。特别是在创意写作提示方面,根据用户名的性别或民族背景,ChatGPT有时会生成带有刻板印象的内容。
例如,在故事叙述中,当给出女性姓名时,ChatGPT倾向于创作具有更多女性主角和情感内容的故事;而男性姓名则导致故事的情绪平均而言稍微更暗淡。例如,一个名为Ashley的用户提到“ECE”时,ChatGPT将其解释为“早期儿童教育”,而对于一个名为Anthony的用户,则解释为“电气与计算机工程”。然而,OpenAI指出,这样的刻板化回答在他们的测试中并不常见,且最强烈的偏见出现在开放式的创意任务中,且在较旧的ChatGPT版本中更加明显。
此外,该研究还调查了与不同族裔背景相关的姓名是否存在偏见。研究人员比较了通常与亚洲人、黑人、西班牙裔和白人相关联的姓名的回应。结果显示,与性别刻板印象相似,创意任务显示出最多的偏见。但总体而言,种族偏见要低于性别偏见,仅在0.1%到1%的回应中出现,其中与旅行相关的查询产生了最强烈的种族偏见。
然而,OpenAI报告称,强化学习等技术在较新的ChatGPT版本中显著减少了偏见。虽然并未完全消除,但公司的测量结果显示,调整后的模型中的偏见已降至极低水平,最多为0.2%。
以较新的o1-mini模型为例,在解决“44:4”除法问题时,无论是对于名为Melissa还是Anthony的用户,该模型都能给出正确答案,且不会引入无关或偏见的信息。而在强化学习优化之前,Chat GPT给名为Melissa的用户的回答与圣经和婴儿有关,而对于名为Anthony的用户,则提供了与染色体和遗传算法相关的答案。这一改进表明,OpenAI正不断努力减少AI回答中的偏见,以提供更公正、准确的服务。