通义千问Qwen2-72B模型登顶斯坦福大学HELM MMLU测评榜单

2024年06月21日 由 neo 发表 190 0

昨日,斯坦福大学基础模型研究中心(CRFM)发布的大模型测评榜单HELM MMLU更新了最新结果。据该中心主任Percy Liang介绍,阿里巴巴的通义千问Qwen2-72B模型凭借卓越的性能,成功超越Llama3-70B模型,成为排名最高的开源大模型。

MMLU(大规模多任务语言理解)是业界公认的衡量大模型综合能力的重要基准,涵盖了从基础数学、计算机科学到法律、历史等57项任务,旨在全面检验大模型的世界知识和问题解决能力。然而,在实际测评中,由于不同模型使用的提示词技术和评价框架存在差异,导致测评结果的可比性和一致性受到挑战。

2852727bb4eb37d5829deacf5d9c1d2cu1

为了克服这些问题,斯坦福大学基础模型研究中心提出了HELM(全面评估框架),旨在通过标准化和透明化的方法,为大模型测评提供一个公正、可靠的平台。在HELM框架下,所有参评模型均采用相同的提示词和情境学习示例,确保评估结果的公平性和准确性。

最新公布的HELM MMLU榜单中,阿里巴巴的通义千问Qwen2-72B模型表现抢眼,以优异的成绩位列第五,成为排名最高的开源大模型,同时也是表现最佳的中国大模型。这一成绩不仅彰显了Qwen2-72B模型的强大实力,也体现了阿里巴巴在人工智能领域的深厚积累和持续创新。

据了解,通义千问Qwen2于今年6月初正式开源,提供了5个不同尺寸的预训练和指令微调模型供开发者使用。自开源以来,Qwen系列模型受到了广泛关注和热烈反响,截至目前,下载量已突破1600万。这一成绩充分证明了Qwen系列模型在业界的认可度和应用价值。

通义千问Qwen2-72B模型的成功登顶,不仅为阿里巴巴在人工智能领域赢得了荣誉,也为中国科技产业树立了新的标杆。

文章来源:https://tech.huanqiu.com/article/4IHXl0Qfg9u
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消