Llama 2:开放基础和微调聊天模型的性能

2023年07月27日 由 Alex 发表 132851 0

介绍


Llama 2,这是经过预训练和微调的大型语言模型 (LLM),其大小从70亿到700亿参数不等。经过微调的版本,名为Llama 2-Chat,是专门为对话应用程序设计的。在大多数基准测试中,这些模型的性能超过了现有的开源聊天模型,根据人类对有用性和安全性的评估,它们有可能取代闭源模型。接下来介绍下对Llama 2-Chat进行微调和安全增强的方法.

预训练




从Llama的预训练方法开始开发了Llama 2模型系列,该模型利用了优化的自回归变压器。实现了多项修改以提高性能,包括增强数据清理、更新数据混合、训练总数增加40%的令牌,以及将上下文长度增加一倍。还结合了分组查询注意(GQA)来增强其大型模型的推理可扩展性。

预训练数据


利用来自公开来源的新颖数据组合来训练 Llama 2 模型,不包括任何来自Meta产品或服务的数据。努力从某些网站上删除数据,这些网站以隐藏大量个人信息而闻名。在2万亿个令牌数据上训练模型,认为这个数量提供了有益的性能成本平衡。还对最真实的来源进行了抽样,以提高知识水平,减少虚假信息的产生或“幻觉”。

Llama 2预训练模型评估




Llama 2的性能明显优于Llama 1:

1. 与650亿参数的Llama 1模型相比,700亿参数的Llama 2模型显著提高了MMLU和BBH基准测试的结果,分别提高了大约5分和8分。

2. 除了代码基准之外,具有70亿和300亿参数的Llama 2模型在所有类别中都优于类似大小的MPT模型。

3. 与Falcon模型相比,Llama 2的70亿和340亿参数模型在所有基准类别中都优于70亿和400亿参数的Falcon模型。

4. Llama 2 70B模型超越了所有开源模型。

相比之下,Llama 2 70B模型在MMLU和GSM8K基准测试上的表现与闭源GPT-3.5 (OpenAI, 2023)相似,但在编码基准测试上表现出明显的缺陷。在几乎所有的基准测试中,它的性能都达到或超过了PaLM(5400亿个参数)。然而,Llama 2 70B型号与GPT-4和PaLM-2-L之间仍然存在很大的性能差距。

微调


监督微调(SFT)



使用Llama等公开可用的指令调优数据启动了监督微调(SFT)阶段。然而,他们观察到许多第三方SFT数据源缺乏多样性和质量,特别是在将大型语言模型(LLM)与对话式指令保持一致方面。因此,他们优先收集几千个高质量的SFT数据示例,并发现使用更少但质量更好的示例可以显著提高性能。

并发现数以万计的SFT注释足以获得高质量的结果,并在收集27540条注释后停止。他们强调了不同的注释平台和供应商对模型性能的重大影响,强调了即使从供应商处获取注释也需要进行数据检查。对一组180个示例的人工检查表明,模型输出通常与人类注释者手写的结果具有竞争力,这表明将更多的注释工作转移到基于偏好的注释上对于强化人类反馈学习(RLHF)的价值。

在微调中,每个样本由提示和答案组成,并用一个特殊的标记连接在一起,用于分隔片段。作者使用了一个自回归目标,并从用户提示中消除了令牌的损失,这意味着它们只在回答令牌上反向传播。

人类偏好数据收集



作者使用二进制比较协议来收集人类偏好数据进行奖励建模,以最大限度地提高提示的多样性。注释者的任务是编写一个提示,并根据设定的标准在两个模型响应之间进行选择。这些响应从两个不同的模型变量中取样,并随温度超参数的变化而变化。注释者还必须对所选答案的偏好进行评分(明显更好,更好,稍好,或可以忽略的更好/不确定)。

这些偏好注解的重点是“有用性”和“安全性”。作者将“有用性”定义为Llama 2-Chat的回复在多大程度上满足了用户的要求,而“安全性”定义为回复是否符合他们的安全指南。为每个重点领域提供了单独的指导方针。

在安全阶段,将模型反应分为三类:

1).  首选反应是安全的,另一种反应是不安全的,

2).  两种反应都是安全的,

3).  两种反应都是不安全的。

没有例子说明选择的反应是不安全的,而另一个是安全的。

每周分批收集人工注释。随着收集到的偏好数据越来越多,他们的奖励模型得到了改进,使作者能够逐渐训练出更好的Llama 2-Chat版本。随着模型数据分布的改进,作者使用最新的Llama 2-Chat迭代收集了新的偏好数据,以保持奖励模型的最新和准确。

作者收集了超过100万个二进制比较,称为元奖励建模数据。与现有的开源数据集相比,他们的偏好数据有更多的会话回合,平均时间更长。

奖励建模 

作者开发了一个奖励模型,输入一个模型反应和相应的提示,并输出一个分数,表明所产生的反应的质量(例如,有用性,安全性)。这些分数可以作为奖励来优化Llama 2-Chat模型,以更好地符合人类的偏好。

他们训练了两种不同的奖励模型:一种是针对帮助(helpfulness RM)而优化的,另一种是针对安全(safety RM)。这些模型是从预先训练的聊天模型检查点初始化的,以确保知识转移并防止出现偏爱幻觉之类的差异。

为了训练奖励模型,将成对的人类偏好数据转换为二进制排名标签格式。对模型进行了训练,以确保选择的回答得分高于对应的回答。为了利用四点偏好评级量表,他们在损失中添加了一个边际成分,以帮助模型为差异较大的回答分配更明显的分数。

作者将他们的新数据与现有的开源偏好数据集结合起来,形成了一个更大的训练数据集。

奖励模型结果



作者在每批人类偏好注释数据的测试集上评估了他们的奖励模型。他们将自己的模型与公开可用的替代模型进行了比较,包括SteamSHP-XL、Open Assistant奖励模型和GPT-4。他们的模型表现最好,特别是在相应的内部测试集上。

作者指出了帮助性和安全性目标之间的紧张关系,并指出这可能是他们各自的模型在自己的领域表现最好的原因。一个旨在在这两个方面都表现良好的单一模型需要区分更好的反应,并区分安全提示和敌对提示。

当通过偏好评分评分时,对于“明显更好”的测试集的准确性更高,并且随着比较变得更加相似,准确性会降低。作者指出,在更多不同的回答上的准确性是提高Llama 2-Chat性能的关键。

在扩展趋势方面,发现更大的模型为类似的数据量提供了更好的性能,并且性能并没有随着当前注释数据量的增加而趋于稳定。得出结论,提高奖励模型的准确性可以直接提高Llama 2-Chat的表现,因为奖励的排序任务是明确的。

迭代微调



两种主要算法用于RLHF微调:近端策略优化(PPO), RLHF文献中的标准,以及拒绝采样微调,其中他们从采样模型响应中选择最佳输出进行梯度更新。两种算法之间的区别在于广度(在拒绝采样中给定提示的K个样本)和深度(在PPO中样本是前一步更新的模型策略的函数,在RS中所有输出都被采样)。在迭代训练中,差异就不那么明显了)。

只对最大的70B Llama 2-Chat进行了采样微调,较小的模型对来自较大模型的采样数据进行了微调。在迭代过程中,调整了他们的策略,以包括所有先前迭代中表现最好的样本,从而显著提高性能。

作者从两个方面说明了拒绝抽样的好处。它们表明,最大值和中值曲线之间的delta可以解释为最佳输出上微调的潜在增益。他们还发现,在迭代模型更新过程中,生成不同样本的最佳温度不是恒定的。

在RLHF (V4)之后,作者依次将拒绝采样和PPO微调结合起来。对于PPO,他们通过从策略中采样提示和代来迭代改进策略,并使用PPO算法来实现目标。他们还增加了对偏离原始政策的惩罚条款,因为这有助于培养稳定性并减少奖励黑客行为。

多轮一致性系统消息



作者提出了幽灵注意力(GAtt),这是一种旨在帮助人工智能在对话过程中记住初始指令的技术。这种方法建立在上下文蒸馏的概念之上,引入了一个需要在整个对话中遵循的指令,并附加到合成对话数据集中的所有用户消息中。在训练过程中,指令只保留在第一个回合,并且之前回合的所有标记的损失设置为零。这一策略被应用于一系列综合约束,包括爱好、语言和公众人物。

RLHF结果

基于模型的评估



评估像Llama 2-Chat这样的大型语言模型(LLM)是一个复杂的问题。虽然人类评估被认为是黄金标准,但它并不总是可扩展的,而且可能会出现并发症。作为解决方案,作者首先使用奖励模型来衡量他们的人类反馈强化学习(RLHF)模型版本迭代的改进,后来用人类评估证实了这些发现。

为了测试奖励模型的可靠性,作者收集了一组提示,并让人类注释者对它们进行判断。结果表明,奖励模型通常与人类的偏好一致,证实了它们作为逐点度量标准的用途。

然而,为了防止可能与人类偏好的差异,作者还使用了一个更通用的奖励模型,该模型是在各种开源奖励建模数据集上训练的。他们假设迭代的模型更新可能有助于保持与人类偏好的一致性。

在确保新旧模型之间没有回归的最后检查中,在下一个注释迭代中使用两个模型进行比较。

在RLHF-V3之后,作者的模型在安全性和有用性方面都优于ChatGPT。为了公平比较,最终结果也使用GPT-4进行评估。这导致Llama 2-Chat对ChatGPT的胜率仍然超过60%,尽管优势不那么明显。

人工评价



人类评估通常被认为是评估对话模型的黄金标准,研究人员使用这种方法来评估Llama 2-Chat模型的有用性和安全性。使用超过4000个单轮和多轮提示,将这些模型与Falcon和MPT MosaicML等开源模型以及ChatGPT和PaLM等闭源模型进行比较。

结果表明,Llama 2-Chat模型在单回合和多回合提示上的表现都明显优于开源模型,其中Llama 2-Chat 34B模型与同等大小的模型相比,胜率超过75%。最大的Llama 2-Chat模型也与ChatGPT竞争。

三个不同的注释器独立评估每个模型生成比较,以确保使用Gwet的AC1/2统计量测量的评分者间可靠性(IRR)。根据模型比较,AC2评分在0.37 - 0.55之间变化。

然而,作者承认人类的评估有一定的局限性。例如,虽然按照研究标准,4,000个提示集是很大的,但它并没有涵盖所有可能的实际使用场景。提示集缺乏多样性,不包括任何与编码或推理相关的提示。评估侧重于多回合对话的最后一代,而不是整个对话体验。最后,人类评估的主观性和嘈杂性意味着结果可能随着不同的提示或指示而变化。

安全


预训练中的安全性



作者讨论了用于Llama 2-Chat模型的预训练数据以及为负责任地预训练它所采取的步骤。他们没有使用任何用户数据,并排除了包含大量个人信息的某些网站。他们还旨在最大限度地减少碳足迹,避免额外的过滤,然而,作者警告,只有在进行了重大的安全调整后,才应该部署该模型。

对训练数据中的人口统计学表征进行了分析,发现与“她”代词相比,“他”代词的代表性过高,这可能导致“他”在模型输出中使用得更频繁。与宗教、性别、国籍、种族和民族以及性取向相关的最重要的人口特征词汇都显示出西方倾向。

作者在预训练数据中发现了少量的毒性,这可能会影响模型的输出。他们还发现,在训练数据中,英语是主要语言,这表明该模型在处理其他语言时可能不那么有效。



Llama 2的安全能力使用三个自动基准进行测试:TruthfulQA用于真实性,ToxiGen用于毒性,BOLD用于偏差。与它的前身相比,Llama 2表现出更高的真实性和更低的毒性。然而,Llama 2的13B和70B版本表现出增加的毒性,可能是由于更大的预训练数据或不同的数据集混合。虽然作者注意到许多人口群体的积极情绪有所增加,但他们强调,在部署之前需要额外的安全缓解措施,并对该模型的实际影响进行更全面的研究。

安全微调



作者讨论了名为Llama 2-Chat的语言模型的微调方法,概述了它的技术、安全类别、注释指南和降低安全风险的方法。

1. 监督安全微调:在这里,团队从对抗性提示和安全演示开始,包括在一般的监督微调过程中。这有助于使模型与早期的安全指南保持一致。

2. 安全性RLHF(从人类反馈中强化学习):该方法将安全性集成到一般的RLHF管道中,其中包括训练特定于安全的奖励模型,并收集更多对抗性提示以进行更好的微调。

3. 安全上下文蒸馏:在此步骤中,通过生成更安全的响应并将安全上下文蒸馏到模型中来改进模型。这是通过有针对性的方法来选择是否应该对每个样本使用上下文蒸馏来完成的。

确定的安全类别包括非法和犯罪活动、仇恨和有害活动以及不合格的咨询。为了覆盖不同种类的提示,他们使用风险类别和攻击向量,例如心理操纵、逻辑操纵、语法操纵、语义操纵等。

为了进行微调,收集安全模型响应的提示和演示,并按照既定的指导方针使用。通过RLHF,模型编写细微反应的能力得到了提高。

研究团队还发现,增加一个额外的安全缓解阶段并不会对模型的有用性产生负面影响。然而,随着模型调优中混合了更多的安全数据,模型确实以更保守的方式回答某些问题,从而导致错误拒绝率的增加(模型由于不相关的安全问题而拒绝回答合法提示)。

最后,上下文蒸馏用于鼓励模型将对抗性提示与更安全的响应关联起来,并且该上下文蒸馏仅发生在对抗性提示上,以防止模型性能下降。安全奖励模型决定了是否使用安全上下文蒸馏。

红队

研究讨论了红队作为识别语言学习模型(LLM)中潜在风险和漏洞的一种主动方法的应用。这些工作涉及来自不同领域的350多名专业人士,如网络安全、选举欺诈、法律、民权、软件工程、机器学习和创意写作。红队演习的重点是不同的风险类别,如犯罪策划、人口贩运、侵犯隐私等,以及不同的攻击媒介。一些发现表明早期的模型经常不能恰当地识别和处理有问题的内容,但是迭代改进有助于缓解这些问题。

练习后,对收集到的数据进行深入分析,考虑对话长度、风险区域分布、风险程度等因素。这些信息用于模型微调和安全培训。这些红队练习的有效性是使用稳健性因子来衡量的,该因子定义为每个人每小时会触发模型违规响应的提示的平均数量。例如,在7B模型上,经过几次红队迭代和模型细化中稳健性得到了显著的提高。

红队在改进模型安全性和稳健性方面仍然是一个有价值的工具,新的候选版本不断减少提示触发违规响应的比率。结果,平均而言,模型的拒绝率为90%。

Llama 2-Chat的安全性评价



作者使用人类评估方法来评估语言学习模型(LLM)的安全性,特别是涉及大约2000个对抗性提示。对这些提示的反应由评分者按照李克特五分制进行评估,其中5分表示最安全和最有帮助,1分表示严重违反安全规定。1或2级被视为违规。

违规率为主要评价指标,平均评分为辅助评价指标。三名评注员对每个例子进行评估,以多数票决定响应是否违反了安全准则。使用Gwet的AC1/2统计量测量的评注者间信度(IRR)表明评注者之间的一致性很高。IRR分数根据所评估的模型而变化。

各种LLM的总体违章率和安全等级表明,Llama 2-Chat的表现与其他LLM相当或更好。值得注意的是,评估受到提示设置限制、审查指南的主观性、内容标准和评分员个人主观性等因素的影响。

有一种趋势是,在所有模型中,多回合对话更有可能引起不安全的反应。然而,Llama 2-Chat仍然表现良好,特别是在多回合对话中。

在真实性、毒性和偏见方面,经过微调的Llama 2-Chat比预训练的模型有了很大的改进。它在所有比较模型中显示出最低的毒性水平。此外,经过微调后,Llama 2-Chat对许多人口群体的积极情绪有所增加。附录中提供了对真实性和偏倚的深入分析和结果。

结论


学习和观察



1. 研究结果表明,由于其成本和时间效率,强化学习在调整过程中特别有效。RLHF(从人类反馈中强化学习)的成功取决于它在注释过程中在人类和LLM之间建立的协同关系。值得注意的是,RLHF有助于克服监督微调的局限性,并可以导致LLM的卓越写作能力。

2. 观察到与RLHF相关的一个有趣现象——温度根据环境动态重新调整。对于创造性的提示,温度的升高继续在RLHF迭代中产生多样性。然而,对于事实提示,尽管温度上升,模型仍学会提供一致的反应。

3. Llama 2-Chat模型也显示出强大的时间组织能力,这表明LLM可能比以前认为的有更先进的时间概念。

4. 一个有趣的发现是LLM中工具使用的出现,这是在零样本背景下自发出现的。即使没有明确地注释工具的使用,该模型也展示了在零样本上下文中使用一系列工具的能力。虽然很有前景,但LLM工具的使用也会带来安全问题,需要进一步的研究和测试。

 

来源:https://blog.gopenai.com/paper-review-llama-2-open-foundation-and-fine-tuned-chat-models-23e539522acb
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消