阿里云开源推出通义千问 Qwen2 大模型,上下文窗口最高达 128K

2024年06月07日 由 daydream 发表 276 0

阿里云通义千问宣布了Qwen系列模型的重大升级,推出了全新的Qwen2系列,标志着其在AI大模型领域的又一次重要突破。这次升级不仅带来了模型尺寸的多样化选择,还增强了语种支持、提升了性能,并显著扩大了上下文长度的支持。


微信截图_20240607100519


Qwen2系列模型涵盖了从Qwen2-0.5B到Qwen2-72B的五种不同大小的预训练和指令微调模型,以满足不同场景和需求的开发者。更值得一提的是,Qwen2在原有的中文和英语基础上,增加了对27种语言的高质量数据处理能力,显著提升了模型的多语言处理能力。


在性能上,Qwen2系列模型在多个评测基准上均表现优异,特别是在代码和数学能力方面有了显著提升。这一成果得益于阿里云对CodeQwen1.5成功经验的融合,并利用大规模且高质量的数据进行训练。同时,通过YARN或Dual Chunk Attention等技术,Qwen2模型在处理长文本任务时表现出色,进一步扩展了模型处理长上下文的能力。


在安全性能方面,Qwen2-72B-Instruct模型在多语言不安全查询类别测试中显示出了与GPT-4相当的安全性能,这一成果展现了阿里云在保障模型安全性方面的努力。在多个评测数据集上,Qwen2系列模型的表现均有所提升,尤其在代码、数学和多语言理解方面表现突出,显示出强大的性能和应用潜力。


除了技术上的突破,Qwen2系列模型还注重开放性和合作性。目前,Qwen2系列模型已在Hugging Face和ModelScope平台上开源,为开发者提供了更加丰富和灵活的工具选择。同时,阿里云还提供了丰富的社区支持,包括微调、量化、部署、本地运行和评测等多方面的工具和框架,以帮助开发者更好地应用和优化模型。


此次Qwen2系列的发布,不仅展示了阿里云在AI大模型领域的技术实力和创新能力,也为全球开发者提供了更加强大和灵活的工具选择。

文章来源:https://qwenlm.github.io/zh/blog/qwen2/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消