聚焦大型语言模型中偏见的根源

2024年01月16日 由 daydream 发表 194 0

当人工智能模型浏览数百GB的训练数据以学习语言的细微差别时,它们也吸收了编织在文本中的偏见。


达特茅斯学院的计算机科学研究人员正在设计方法来研究模型中编码这些偏见的部分,为减轻甚至完全消除它们铺平道路。


微信截图_20240116135432


在最近发表在《2023年自然语言处理经验方法会议论文集》上的一篇论文中,合著者瓜里尼研究生和高级研究学院的计算机科学博士候选人Weicheng 马和计算机科学助理教授Soroush Vosoughi研究了刻板印象是如何在预训练的大型语言模型中编码的。


大型语言模型或神经网络是一种深度学习算法,旨在在大型数据集上训练时处理、理解和生成文本和其他内容。


Vosoughi说,预训练模型有偏见,比如刻板印象。这些通常是积极的(例如,暗示某个特定群体擅长某些技能)或消极的(假设某人根据其性别从事某种职业)。


机器学习模型有望以各种方式渗透到日常生活中。他们可以帮助招聘经理筛选成堆的简历,促进银行贷款的更快批准或拒绝,并在假释决定期间提供建议。


但基于人口统计的内置刻板印象会带来不公平和不受欢迎的结果。为了减轻这种影响,“我们问我们是否可以在模型训练后做些什么来处理这些刻板印象。”沃苏吉说。


研究人员首先提出了一个假设,即刻板印象与其他语言特征和模式一样,被编码在神经网络模型的特定部分,称为“注意力头”。这些类似于一组神经元;它们允许机器学习程序记住作为输入提供给它的多个单词,以及其他功能,其中一些功能仍未完全理解。


马,Vosoughi和他们的合作者创建了一个充满刻板印象的数据集,并用它来反复调整60种不同的预训练大型语言模型,包括BERT和T5。通过放大模型的刻板印象,数据集就像一个检测器,聚焦在编码这些偏见方面承担重任的注意力头。


在他们的论文中,研究人员展示了修剪最糟糕的那些能显著减少大型语言模型中的刻板印象,而不会显著影响它们的语言能力。


“我们的发现打破了传统观点,即人工智能和自然语言处理的进步需要广泛的训练或复杂的算法干预。”马说。由于这项技术并非天生特定于语言或模型,据马说它将具有广泛适用性。


更重要的是,沃苏吉补充说,数据集可以调整以揭示某些刻板印象但保留其他刻板印象——“并不是一刀切”。


所以,一个医疗诊断模型,其中的年龄或性别差异可能对患者评估很重要,会使用与去除模型偏见的工作候选人挑选器不同版本的数据集。


只有在可以访问完全训练的模型时,这项技术才有效,并不适用于像OpenAI的聊天机器人ChatGPT这样的黑箱模型,其内部工作对用户和研究者来说不可见。


适应这种方法到黑箱模型是他们下一步的直接目标,马说。

文章来源:https://techxplore.com/news/2024-01-zeroing-bias-large-language.html#google_vignette
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消