Hugging Face发布新型紧凑语言模型SmolLM2

2024年11月04日由 daydream 发表 340 0

Hugging Face近日推出了新型紧凑语言模型系列SmolLM2，该系列模型在性能上表现出色，同时相较于大型模型，所需的计算资源大幅减少。

微信截图_20241104103017

SmolLM2在Apache 2.0许可下发布，包含三种规模：1.35亿、3.6亿和17亿参数。这些规模使得SmolLM2适合部署在智能手机和其他边缘设备上，这些设备通常处理能力和内存有限。值得注意的是，17亿参数版本的SmolLM2在多个关键基准测试中超越了Meta的Llama 1B模型。

在AI性能测试中，小型模型展现出了强大的实力。据Hugging Face的模型文档显示，SmolLM2相较于其前身在指令遵循、知识、推理和数学方面取得了显著进步。其中，最大的变体使用了11万亿个标记进行训练，数据集组合包括FineWeb-Edu以及专门的数学和编码数据集。

这一发展正值AI行业面临大型语言模型（LLMs）计算需求挑战的关键时刻。尽管OpenAI和Anthropic等公司不断推动模型规模的扩大，但业界也越来越认识到高效、轻量级AI的重要性，这种AI能够在设备上本地运行。

大型AI模型的推广使得许多潜在用户无法跟上步伐。运行这些模型需要昂贵的云计算服务，这带来了响应速度慢、数据隐私风险和成本高昂等问题，小型公司和独立开发者难以承担。SmolLM2通过直接在个人设备上提供强大的AI功能，为更多用户和公司提供先进AI工具的可能性，而不仅仅是拥有大型数据中心的科技巨头。

SmolLM2的性能尤其值得注意，考虑到其规模较小。在衡量聊天能力的MT-Bench评估中，17亿参数模型获得了6.13的分数，与更大规模的模型相媲美。在GSM8K基准的数学推理任务中，它也表现出色，获得了48.2的分数。这些结果挑战了“模型越大越好”的传统观念，表明精心设计的架构和训练数据可能比参数数量更重要。

SmolLM2支持一系列应用，包括文本重写、摘要生成和功能调用。其紧凑的尺寸使得它能够在隐私、延迟或连接性限制使得基于云的AI解决方案不切实际的情况下进行部署。这在医疗保健、金融服务等对数据隐私要求严格的行业中尤其有价值。

行业专家将此视为向更高效AI模型发展的更广泛趋势的一部分。在设备上本地运行复杂的语言模型可能会为移动应用开发、物联网设备和数据隐私至关重要的企业解决方案等领域带来新应用。

然而，这些小型模型仍有限制。据Hugging Face的文档显示，它们“主要理解和生成英文内容”，并且可能不总是产生事实准确或逻辑一致的输出。

SmolLM2的发布表明，AI的未来可能不仅仅属于规模越来越大的模型，而是属于能够以更少资源提供强大性能的更高效架构。这可能对AI的普及和减少AI部署对环境的影响产生重大影响。

目前，这些模型已通过Hugging Face的模型库提供，每个规模变体都提供基础版本和指令调优版本。

文章来源：https://venturebeat.com/ai/ai-on-your-smartphone-hugging-faces-smollm2-brings-powerful-models-to-the-palm-of-your-hand/

标签：

Hugging Face 模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Run AI推出开源解决方案Model Streamer，六倍提升模型加载速度

下一篇麻省理工展示新型机器人训练模型：借鉴大语言模型技术

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来