微软的研究人员声称,他们开发了首个拥有20亿参数的1位大型语言模型。该模型BitNet b1.58 2B4T可以在苹果M2等商用CPU上运行。
“该模型在4万亿个标记的语料库上进行了训练,展示了原生1位LLM如何在性能上与同类大小的领先开放权重全精度模型相媲美,同时在计算效率(内存、能量、延迟)方面具有显著优势”微软在项目的Hugging Face存储库中写道。
是什么让BitNet模型与众不同?
BitNet,或1位LLM,是大型语言模型的压缩版本。原始的20亿参数规模模型在40亿个标记的语料库上训练,缩小为一个大幅减少内存需求的版本。所有权重都表示为三个值之一:-1、0和1。其他LLM可能使用32位或16位浮点格式。
参见:威胁行为者可以在“氛围编码”期间将恶意包注入AI模型中。
在研究论文中,该论文作为正在进行的工作发布在Arxiv上,研究人员详细介绍了他们如何创建BitNet。其他团队之前也创建过BitNet,但研究人员表示,他们的大多数努力要么是应用于预训练全精度模型的后训练量化(PTQ)方法,要么是从头开始训练的原生1位模型,最初是在较小规模上开发的。BitNet b1.58 2B4T是一个大规模训练的原生1位LLM;它仅占用400MB,而其他“小模型”可以达到4.8 GB。
BitNet b1.58 2B4T模型的性能、目的和限制
与其他AI模型的性能比较
根据微软的说法,BitNet b1.58 2B4T优于其他1位模型。BitNet b1.58 2B4T的最大序列长度为4096个标记;微软声称它优于像Meta的Llama 3.2 1B或谷歌的Gemma 3 1B这样的较小模型。
研究人员对这个BitNet的目标
微软的目标是通过创建可以在边缘设备、资源受限环境或实时应用中运行的版本,使LLM对更多人可用。
然而,BitNet b1.58 2B4T仍然不易运行;它需要与微软的bitnet.cpp框架兼容的硬件。在标准的transformers库上运行不会带来速度、延迟或能耗方面的任何好处。BitNet b1.58 2B4T不像大多数AI模型那样在GPU上运行。
接下来是什么?
微软的研究人员计划探索训练更大规模的原生1位模型(7B、13B参数及更多)。他们指出,当前的大多数AI基础设施缺乏适合1位模型的硬件,因此他们计划探索“共同设计未来的硬件加速器”,专门为压缩AI设计。研究人员还旨在:
- 增加上下文长度。
- 提高长上下文链式推理任务的性能。
- 增加对除英语以外的多种语言的支持。
- 将1位模型集成到多模态架构中。
- 更好地理解为什么大规模1位训练产生了效率的理论。