认识LLM-Blender:一种新颖的集成框架
2023年07月20日 由 Susan 发表
695319
0
大型语言模型在大量任务中表现出卓越的性能。从制作独特而有创意的内容和质疑答案到翻译语言和总结文本段落,LLM在模仿人类方面取得了成功。一些著名的LLM,如GPT,BERT和PaLM,因准确遵循指令和访问大量高质量数据而成为头条新闻。像 GPT4 和 PaLM 这样的模型不是开源的,这会阻止任何人理解它们的架构和训练数据。另一方面,像Pythia,LLaMA和Flan-T5这样的LLM的开源性质为研究人员提供了一个微调和改进自定义指令数据集模型的机会。这使得开发更小,更高效的LLM,如Alpaca,Vicuna,OpenAssistant和MPT。
没有单一的开源LLM引领市场,各种示例的最佳LLM可能彼此差异很大。因此,为了不断为每个输入产生改进的答案,必须动态地整合这些LLM。 通过整合各种LLM的独特贡献,可以减少偏差,错误和不确定性,从而产生更接近人类偏好的结果。为了解决这个问题,来自艾伦人工智能研究所、南加州大学和浙江大学的研究人员提出了LLM-BLENDER,这是一个集成框架,通过利用几种开源大型语言模型的许多优势,始终如一地获得卓越的性能。
LLM-BLENDER由两个模块组成 - PAIRRANKER和GENFUSER。这些模块表明,不同示例的最佳LLM可能会有很大差异。PAIRRANKER是第一个模块,用于识别潜在输出之间的微小变化。它使用先进的成对比较技术,其中原始文本和来自各种LLM的两个候选输出充当输入。为了联合编码输入和候选对,它利用了像RoBERTa这样的交叉注意力编码器,其中两个候选者的质量可以由PAIRRANKER使用此编码来确定。
第二个模块,GENFUSER,专注于合并排名靠前的候选者,以产生改进的输出。它充分利用了所选候选人的优势,同时最大限度地减少了他们的劣势。GENFUSER旨在通过合并各种LLM的输出来开发优于任何一个LLM输出的输出。
为了进行评估,该团队提供了一个名为MixInstruction的基准数据集,该数据集结合了Oracle成对比较和各种指令数据集。该数据集使用11个流行的开源LLM为各种指令遵循任务中的每个输入生成多个候选项。它包括训练、验证和测试示例,以及用于自动评估的Oracle比较。这些oracle比较已经被用来给候选输出一个真实的排名,允许LLM-BLENDER和其他基准技术的性能进行评估。
实验结果表明,LLM-BLENDER在一系列评估参数上的表现比单个LLM和基线技术要好得多。它建立了相当大的性能差距,并表明与使用单个LLM或基线方法相比,使用LLM-BLENDER集成方法会产生更高质量的输出。PAIRRANKER的选择优于单个LLM模型,因为它们在基于参考的指标和GPT排名方面具有更好的性能。通过有效的融合,GENFUSER通过利用PAIRRANKER的顶级选择显著提高了响应质量。
LLM-BLENDER的表现也优于Vicuna等单个LLM,因此显示出通过集成学习改善LLM部署和研究的巨大潜力。
来源:https://www.infoq.com/news/2023/07/mojo-programming-language/