人工智能(AI)领域的量化技术,一种旨在提升模型效率的关键手段,正逐渐逼近其效能极限。量化技术通过减少表示信息所需的比特位数量——计算机处理的最小单位——来优化模型。这类似于日常对话中的信息简化:当被问及时间时,人们通常会回答“中午”,而非“12点01分04毫秒”,两者意思相同,但精度有所差异。AI模型中的量化亦是如此,其精度需求取决于具体应用场景。
AI模型包含多个可量化的组件,特别是参数——模型用于预测或决策的内部变量。模型运行时需执行数百万次计算,量化技术通过减少参数的比特位数量来降低计算复杂度,从而提升效率。但值得注意的是,这与“蒸馏”技术不同,后者是一种更为复杂且选择性的参数修剪过程。
然而,量化技术可能并非如先前所认为的那样具有诸多优势。一项由哈佛、斯坦福、麻省理工、Databricks和卡内基梅隆大学研究人员进行的研究表明,如果原始未量化模型经过大量数据和长时间训练,量化后的模型性能会有所下降。换言之,在某些情况下,直接训练一个小型模型可能比压缩大型模型更为有效。
这对于依赖训练大型模型以提升答案质量的AI公司而言,可能是一个坏消息。这些公司通常会尝试通过量化来降低模型的服务成本。这一趋势的负面影响已经显现,例如,Meta的Llama 3模型在量化后表现不佳,可能与训练方式有关。
此外,AI模型推理(即运行模型,如ChatGPT回答问题)的总体成本通常高于模型训练。以谷歌为例,据估计,训练其旗舰Gemini模型之一需耗资1.91亿美元,但若使用该模型为谷歌搜索查询的一半提供50个字的答案,则每年需花费约60亿美元。
尽管有证据表明,随着数据量和计算量的增加,模型性能的提升会逐渐减弱,但大型AI实验室仍在坚持通过扩大数据集来训练模型。然而,一些迹象表明,这种扩大规模的策略可能并非万能。
那么,如果实验室不愿在小型数据集上训练模型,是否还有其他方法可以减少模型退化呢?研究人员发现,在低精度下训练模型可能会使其更加稳健。这里的“精度”指的是数值数据类型能准确表示的数字位数。目前,大多数模型以16位(半精度)训练,并量化至8位精度。然而,极低的量化精度可能并不理想,因为除非原始模型的参数数量非常大,否则低于7位或8位精度的模型质量可能会明显下降。
总的来说,AI模型并非完全可控,已知的计算捷径在此并不总是适用。研究人员指出,量化技术的局限性不容忽视,且降低推理成本并非易事。未来,可能需要更多关注数据的质量而非数量,以及开发能够在低精度下稳定训练的模型架构。