微软推出更高的效率和成本效益的1-Bit LLM

2024年02月29日 由 samoyed 发表 275 0

微软引入了一种新型的语言模型,称为1-Bit LLM(Large Language Model),最近的BitNet等研究为此项目做出了贡献。


Microsoft-agi-1300x731


这种创新的核心在于模型中每个参数的表示,通常称为权重,仅使用1.58位。与通常使用16位浮点值(FP16)作为权重的传统LLM不同,BitNet b1.58将每个权重限制为三个值之一:-1、0或1。这种位使用的实质性减少是所提出模型的基石。


他们发现,尽管BitNet b1.58每个参数只使用1.58位,但在模型大小和训练数据相同的情况下,该模型在困惑度和最终任务性能方面都与传统模型相当。重要的是,它在延迟、内存使用、吞吐量和能源消耗等方面更具成本效益。


这种1.58位LLM引入了一种新的语言模型扩展和训练方法,在高性能和成本效益之间实现了平衡。此外,它还为新的计算方式打开了可能性,并暗示了为这些1-BitLLM设计专用硬件优化的潜力。


该论文还涉及BitNet b1.58促进LLM中长序列的本机支持的可能性。作者建议未来的工作进一步探索无损压缩的可能性,从而可能实现更高的效率。

文章来源:https://analyticsindiamag.com/microsoft-introduces-1-bit-llm/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消