微软发布最大1位LLM,让强大的AI在旧硬件上运行

2025年04月19日 由 佚名 发表 173 0
微软的模型BitNet b1.58 2B4T已在Hugging Face上发布,但它不在GPU上运行,需要专用框架支持。

微信截图_20250421110049

微软的研究人员声称,他们开发了首个拥有20亿参数的1位大型语言模型。该模型BitNet b1.58 2B4T可以在苹果M2等商用CPU上运行。

“该模型在4万亿个标记的语料库上进行了训练,展示了原生1位LLM如何在性能上与同类大小的领先开放权重全精度模型相媲美,同时在计算效率(内存、能量、延迟)方面具有显著优势”微软在项目的Hugging Face存储库中写道。

是什么让BitNet模型与众不同?

BitNet,或1位LLM,是大型语言模型的压缩版本。原始的20亿参数规模模型在40亿个标记的语料库上训练,缩小为一个大幅减少内存需求的版本。所有权重都表示为三个值之一:-1、0和1。其他LLM可能使用32位或16位浮点格式。

参见:威胁行为者可以在“氛围编码”期间将恶意包注入AI模型中。

在研究论文中,该论文作为正在进行的工作发布在Arxiv上,研究人员详细介绍了他们如何创建BitNet。其他团队之前也创建过BitNet,但研究人员表示,他们的大多数努力要么是应用于预训练全精度模型的后训练量化(PTQ)方法,要么是从头开始训练的原生1位模型,最初是在较小规模上开发的。BitNet b1.58 2B4T是一个大规模训练的原生1位LLM;它仅占用400MB,而其他“小模型”可以达到4.8 GB。

BitNet b1.58 2B4T模型的性能、目的和限制

与其他AI模型的性能比较

根据微软的说法,BitNet b1.58 2B4T优于其他1位模型。BitNet b1.58 2B4T的最大序列长度为4096个标记;微软声称它优于像Meta的Llama 3.2 1B或谷歌的Gemma 3 1B这样的较小模型。

研究人员对这个BitNet的目标

微软的目标是通过创建可以在边缘设备、资源受限环境或实时应用中运行的版本,使LLM对更多人可用。

然而,BitNet b1.58 2B4T仍然不易运行;它需要与微软的bitnet.cpp框架兼容的硬件。在标准的transformers库上运行不会带来速度、延迟或能耗方面的任何好处。BitNet b1.58 2B4T不像大多数AI模型那样在GPU上运行。

接下来是什么?

微软的研究人员计划探索训练更大规模的原生1位模型(7B、13B参数及更多)。他们指出,当前的大多数AI基础设施缺乏适合1位模型的硬件,因此他们计划探索“共同设计未来的硬件加速器”,专门为压缩AI设计。研究人员还旨在:

  • 增加上下文长度。
  • 提高长上下文链式推理任务的性能。
  • 增加对除英语以外的多种语言的支持。
  • 将1位模型集成到多模态架构中。
  • 更好地理解为什么大规模1位训练产生了效率的理论。
文章来源:https://www.techrepublic.com/article/news-microsoft-bitnet-small-ai-model/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消