Hugging Face发布新型紧凑语言模型SmolLM2

2024年11月04日 由 daydream 发表 33 0

Hugging Face近日推出了新型紧凑语言模型系列SmolLM2,该系列模型在性能上表现出色,同时相较于大型模型,所需的计算资源大幅减少。


微信截图_20241104103017


SmolLM2在Apache 2.0许可下发布,包含三种规模:1.35亿、3.6亿和17亿参数。这些规模使得SmolLM2适合部署在智能手机和其他边缘设备上,这些设备通常处理能力和内存有限。值得注意的是,17亿参数版本的SmolLM2在多个关键基准测试中超越了Meta的Llama 1B模型。


在AI性能测试中,小型模型展现出了强大的实力。据Hugging Face的模型文档显示,SmolLM2相较于其前身在指令遵循、知识、推理和数学方面取得了显著进步。其中,最大的变体使用了11万亿个标记进行训练,数据集组合包括FineWeb-Edu以及专门的数学和编码数据集。


这一发展正值AI行业面临大型语言模型(LLMs)计算需求挑战的关键时刻。尽管OpenAI和Anthropic等公司不断推动模型规模的扩大,但业界也越来越认识到高效、轻量级AI的重要性,这种AI能够在设备上本地运行。


大型AI模型的推广使得许多潜在用户无法跟上步伐。运行这些模型需要昂贵的云计算服务,这带来了响应速度慢、数据隐私风险和成本高昂等问题,小型公司和独立开发者难以承担。SmolLM2通过直接在个人设备上提供强大的AI功能,为更多用户和公司提供先进AI工具的可能性,而不仅仅是拥有大型数据中心的科技巨头。


SmolLM2的性能尤其值得注意,考虑到其规模较小。在衡量聊天能力的MT-Bench评估中,17亿参数模型获得了6.13的分数,与更大规模的模型相媲美。在GSM8K基准的数学推理任务中,它也表现出色,获得了48.2的分数。这些结果挑战了“模型越大越好”的传统观念,表明精心设计的架构和训练数据可能比参数数量更重要。


SmolLM2支持一系列应用,包括文本重写、摘要生成和功能调用。其紧凑的尺寸使得它能够在隐私、延迟或连接性限制使得基于云的AI解决方案不切实际的情况下进行部署。这在医疗保健、金融服务等对数据隐私要求严格的行业中尤其有价值。


行业专家将此视为向更高效AI模型发展的更广泛趋势的一部分。在设备上本地运行复杂的语言模型可能会为移动应用开发、物联网设备和数据隐私至关重要的企业解决方案等领域带来新应用。


然而,这些小型模型仍有限制。据Hugging Face的文档显示,它们“主要理解和生成英文内容”,并且可能不总是产生事实准确或逻辑一致的输出。


SmolLM2的发布表明,AI的未来可能不仅仅属于规模越来越大的模型,而是属于能够以更少资源提供强大性能的更高效架构。这可能对AI的普及和减少AI部署对环境的影响产生重大影响。


目前,这些模型已通过Hugging Face的模型库提供,每个规模变体都提供基础版本和指令调优版本。

文章来源:https://venturebeat.com/ai/ai-on-your-smartphone-hugging-faces-smollm2-brings-powerful-models-to-the-palm-of-your-hand/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消