Hugging Face的研究人员提出了一个创新的解决方案,来应对训练和部署大型语言模型(LLM)所带来的资源密集型的挑战。他们在Transformers生态系统中新集成的AutoGPTQ库,允许用户使用GPTQ算法来量化和运行LLM。
在自然语言处理领域,LLM通过它们理解和生成类似人类的文本的能力,改变了各个领域。然而,训练和部署这些模型所需的计算要求,却构成了重大的障碍。为了解决这个问题,研究人员将GPTQ算法,一种量化技术,集成到AutoGPTQ库中。这一进步使用户能够以降低的位精度——8、4、3或甚至2位——执行模型,同时保持准确度基本不变,并且与fp16基线相比具有可比较的推理速度,特别是对于小批量大小。
GPTQ被归类为后训练量化(PTQ)方法,它优化了内存效率和计算速度之间的权衡。它采用了一种混合量化方案,其中模型权重被量化为int4,而激活保留在float16中。权重在推理过程中动态地反量化,并且实际计算是在float16中进行的。这种方法通过基于融合内核的反量化节省了内存,并通过减少数据通信时间实现了潜在的加速。
与AutoGPTQ库的集成简化了量化过程,使用户能够轻松地利用GPTQ来处理各种变换器架构。有了Transformers库的原生支持,用户可以在没有复杂设置的情况下量化模型。值得注意的是,量化模型保留了它们在诸如Hugging Face Hub之类的平台上的可序列化性和可共享性,为更广泛的访问和协作开辟了途径。
集成也扩展到了文本生成推理(TGI)库,使得GPTQ模型能够高效地部署在生产环境中。用户可以利用动态批处理和其他高级功能与GPTQ一起进行最佳资源利用。
虽然AutoGPTQ集成带来了显著的好处,但研究人员也承认还有进一步改进的空间。他们强调了增强内核实现和探索包括权重和激活在内的量化技术的潜力。目前集成主要关注LLM中仅编码器或仅解码器架构,限制了其对某些模型的适用性。
总之,在Hugging Face的Transformers中集成AutoGPTQ库解决了资源密集型LLM训练和部署的挑战。通过引入GPTQ量化,研究人员提供了一种有效的解决方案,优化了内存消耗和推理速度。集成的广泛覆盖和用户友好的界面标志着向在不同GPU架构上实现量化LLM的民主化迈出了一步。随着这个领域的不断发展,机器学习社区研究人员的共同努力有望实现进一步的进步和创新。