微软发布最大1位LLM，让强大的AI在旧硬件上运行 | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

微软的研究人员声称，他们开发了首个拥有20亿参数的1位大型语言模型。该模型BitNet b1.58 2B4T可以在苹果M2等商用CPU上运行。

“该模型在4万亿个标记的语料库上进行了训练，展示了原生1位LLM如何在性能上与同类大小的领先开放权重全精度模型相媲美，同时在计算效率（内存、能量、延迟）方面具有显著优势”微软在项目的Hugging Face存储库中写道。

是什么让BitNet模型与众不同？

BitNet，或1位LLM，是大型语言模型的压缩版本。原始的20亿参数规模模型在40亿个标记的语料库上训练，缩小为一个大幅减少内存需求的版本。所有权重都表示为三个值之一：-1、0和1。其他LLM可能使用32位或16位浮点格式。

参见：威胁行为者可以在“氛围编码”期间将恶意包注入AI模型中。

在研究论文中，该论文作为正在进行的工作发布在Arxiv上，研究人员详细介绍了他们如何创建BitNet。其他团队之前也创建过BitNet，但研究人员表示，他们的大多数努力要么是应用于预训练全精度模型的后训练量化（PTQ）方法，要么是从头开始训练的原生1位模型，最初是在较小规模上开发的。BitNet b1.58 2B4T是一个大规模训练的原生1位LLM；它仅占用400MB，而其他“小模型”可以达到4.8 GB。

BitNet b1.58 2B4T模型的性能、目的和限制

与其他AI模型的性能比较

根据微软的说法，BitNet b1.58 2B4T优于其他1位模型。BitNet b1.58 2B4T的最大序列长度为4096个标记；微软声称它优于像Meta的Llama 3.2 1B或谷歌的Gemma 3 1B这样的较小模型。

研究人员对这个BitNet的目标

微软的目标是通过创建可以在边缘设备、资源受限环境或实时应用中运行的版本，使LLM对更多人可用。

然而，BitNet b1.58 2B4T仍然不易运行；它需要与微软的bitnet.cpp框架兼容的硬件。在标准的transformers库上运行不会带来速度、延迟或能耗方面的任何好处。BitNet b1.58 2B4T不像大多数AI模型那样在GPU上运行。

接下来是什么？

微软的研究人员计划探索训练更大规模的原生1位模型（7B、13B参数及更多）。他们指出，当前的大多数AI基础设施缺乏适合1位模型的硬件，因此他们计划探索“共同设计未来的硬件加速器”，专门为压缩AI设计。研究人员还旨在：

增加上下文长度。
提高长上下文链式推理任务的性能。
增加对除英语以外的多种语言的支持。
将1位模型集成到多模态架构中。
更好地理解为什么大规模1位训练产生了效率的理论。