微软开源phi-1.5:1.3亿参数的语言模型超越LLaMa 2

2023年09月13日 由 daydream 发表 367 0

微软研究团队再次取得了突破。在7月份的phi-1版本超越Meta的LLaMa之后,研究人员现在推出了phi-1.5,这是一个拥有13亿参数的尖端语言模型,它在多个基准测试中超越了LLaMa 2的70亿参数模型。微软决定将该模型开源。


微信截图_20230913105759


phi-1.5模型拥有惊人的13亿参数,经过精心设计,在多个领域具有出色的表现,成为广泛应用的首选。它在处理问答格式的查询、聊天交互和与代码相关的任务时表现突出。


一个拥有十亿参数的模型能走多远?看起来,非常远!!!

今天,我们发布了phi-1.5版本,一个具有13亿参数的LLM,展现出与更大的LLM非常接近的行为。


虽然phi-1是基于高质量的教材数据进行训练,但phi-1.5仅基于合成数据进行训练。这让phi-1.5有所不同,它的训练涵盖了各种数据来源。该模型的学习过程汲取了来自不同数据源的丰富数据,包括从StackOverflow获取的Python代码片段,来自竞技编程比赛的代码,合成Python教科书以及由强大的gpt-3.5-turbo-0301生成的练习题。


phi-1.5模型的关键细节:

  • 架构:基于Transformer的模型,专注于下一个词的预测目标。
  • 数据集大小:在一个庞大的语料库中进行训练,包含300亿个标记。
  • 训练标记:模型通过对1500亿个标记进行训练来磨练自己的技能。
  • 精度:采用fp16精度标准。
  • GPU:利用32个A100-40G GPU的强大计算能力。
  • 训练时间:通过8天的密集训练来实现其卓越性能。


微软研究团队就phi-1.5背后的智慧称,这个模型在不到100亿参数的模型中实现了几乎达到最先进水平的性能。对常识、语言理解和逻辑推理进行的严格基准测试将phi-1.5定位为强大的竞争对手。


值得注意的是,phi-1.5在AGIEval得分上超越了Meta的LLama-2 7b,并在LM-Eval Harness衡量的GPT4ALL基准测试套件中接近了LLama-2 7b的水平。

文章来源:https://analyticsindiamag.com/microsofts-1-3-billion-model-outperforms-llama-2/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消