阿里开源Qwen2-Math:数学推理全球第一,超越GPT-4o和Claude-3.5

2024年08月09日 由 daydream 发表 240 0

如果你尚未听说过“Qwen2”,这并不意外,但从此刻起,这一状况或将改变,因为一款在软件开发、工程及全球STEM(科学、技术、工程和数学)领域内,特别是在数学领域实现重大突破的新产品已正式登场。


微信截图_20240809105329


Qwen2是何物?


在AI模型层出不穷的当下,即便是科技爱好者也难以一一跟进。阿里巴巴云,作为中国电商巨头阿里巴巴旗下的云计算服务部门,在这场AI竞赛中推出了Qwen2——一款开源的大型语言模型(LLM),其影响力足以与OpenAI的GPT系列、Meta的Llama系列及Anthropic的Claude系列相媲美。


自2023年8月起,阿里巴巴云在“同义千问”或简称“Qwen”的品牌下,陆续发布了多款LLM,包括Qwen-7B、Qwen-72B和Qwen-1.8B等,参数规模从18亿到720亿不等,这些参数直接关联到模型的复杂度和智能程度。随后,阿里巴巴还推出了支持音频输入的Qwen-Audio和视觉输入的Qwen-VL等多模态版本。至2024年6月初,Qwen系列的旗舰产品——Qwen2正式问世,带来了0.5B、1.5B、7B、14B和72B五个规模不一的变体。截至目前,阿里巴巴已发布了超过百种规格各异的Qwen系列AI模型,市场反响积极,据称在首年推出的一年内,就有超过9万家中国企业将其应用于日常运营中。


Qwen2-Math:数学领域的焦点


阿里巴巴云的Qwen团队正式介绍了Qwen2-Math系列——专为英语环境设计的数学专用大型语言模型。其中,Qwen2-Math-72B-Instruct在数学LLM领域表现尤为突出,其在LLM MATH基准测试中达到了84%的准确率,该测试覆盖了12,500道复杂的数学竞赛题,特别是那些对LLM构成挑战的文字表述问题。此外,该模型在GSM8K(小学数学基准测试)上的准确率为96.7%,在大学数学基准测试中也达到了47.8%,均领先于其他同类模型。


微信截图_20240809105353


值得注意的是,尽管微软推出的Orca-Math模型在GSM8K上取得了接近Qwen2-Math-7B-Instruct的准确率,但阿里巴巴在官方对比中并未提及此数据。即便如此,Qwen2-Math的最小版本(15亿参数)在GSM8K上的表现依然出色,准确率为84.2%,大学数学上的准确率为44.2%,几乎接近其四倍大模型的性能。


数学AI模型的应用展望


虽然大型语言模型(LLM)最初的应用主要集中在聊天机器人、企业问题解答、文档创作及信息处理等领域,但专注于数学的LLM则为那些经常需要解决数学问题和处理数字的专业人士提供了更为强大的工具。尽管编程基础在于数学,但以往LLM在解决数学问题上的表现并不稳定,甚至不如早期的AI或机器学习系统。


阿里巴巴Qwen2-Math团队表示,他们希望Qwen2-Math能在解决复杂数学问题中发挥积极作用。对于企业和个人用户而言,尽管Qwen2-Math并非完全开源,但其灵活的许可政策为广泛的商业应用提供了可能。具体而言,只要月活跃用户数不超过1亿,用户即可免费将Qwen2-Math用于商业目的,这一宽松的上限足以覆盖众多初创公司、中小企业乃至部分大型企业的需求。

文章来源:https://venturebeat.com/ai/alibaba-claims-no-1-spot-in-ai-math-models-with-qwen2-math/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消