微软引入了一种新型的语言模型,称为1-Bit LLM(Large Language Model),最近的BitNet等研究为此项目做出了贡献。
这种创新的核心在于模型中每个参数的表示,通常称为权重,仅使用1.58位。与通常使用16位浮点值(FP16)作为权重的传统LLM不同,BitNet b1.58将每个权重限制为三个值之一:-1、0或1。这种位使用的实质性减少是所提出模型的基石。
他们发现,尽管BitNet b1.58每个参数只使用1.58位,但在模型大小和训练数据相同的情况下,该模型在困惑度和最终任务性能方面都与传统模型相当。重要的是,它在延迟、内存使用、吞吐量和能源消耗等方面更具成本效益。
这种1.58位LLM引入了一种新的语言模型扩展和训练方法,在高性能和成本效益之间实现了平衡。此外,它还为新的计算方式打开了可能性,并暗示了为这些1-BitLLM设计专用硬件优化的潜力。
该论文还涉及BitNet b1.58促进LLM中长序列的本机支持的可能性。作者建议未来的工作进一步探索无损压缩的可能性,从而可能实现更高的效率。