在今日的博客文章中,苹果公司的工程师们详细分享了与英伟达合作的新进展,旨在进一步提升大型语言模型(LLM)的文本生成速度。
今年早些时候,苹果发布了其创新的Recurrent Drafter(ReDrafter)技术,并慷慨地将其开源。ReDrafter代表了一种全新的LLM文本生成方法,不仅速度显著提升,而且“达到了最先进的性能水平”。该技术巧妙融合了束搜索(用于探索多种文本生成可能性)和动态树注意力(用于高效处理选择)两种先进技术。
尽管苹果的研究已经展示了ReDrafter的强大实力,但公司并未止步于此,而是选择与英伟达携手,共同将这项技术推向生产环境。作为合作的一部分,ReDrafter已被成功集成到英伟达的TensorRT-LLM工具中,该工具专为在NVIDIA GPU上加速LLM运行而设计。
合作成果显著:为了实现ReDrafter的集成,英伟达不仅新增了运算符,还优化了现有运算符,从而大幅提升了TensorRT-LLM适应复杂模型和解码方法的能力。在NVIDIA GPU上,使用TensorRT-LLM推理加速框架结合ReDrafter对数百亿参数的生产模型进行基准测试后发现,在贪婪解码模式下,生成的标记速度提高了惊人的2.7倍。这些基准测试结果充分表明,这项技术能够显著降低用户可能遇到的延迟,同时减少GPU的使用数量并降低功耗。
苹果的机器学习研究人员总结道:“随着LLM在生产应用中的日益普及,提高推断效率对于降低计算成本并减少用户延迟至关重要。通过将ReDrafter的新颖推测解码方法集成到NVIDIA TensorRT-LLM框架中,开发人员现在能够在NVIDIA GPU上为他们的生产LLM应用程序实现更快的标记生成速度。”