苹果与英伟达携手优化大型语言模型文本生成性能

2024年12月19日 由 neo 发表 158 0

在今日的博客文章中,苹果公司的工程师们详细分享了与英伟达合作的新进展,旨在进一步提升大型语言模型(LLM)的文本生成速度。


QQ截图20241219143222

今年早些时候,苹果发布了其创新的Recurrent Drafter(ReDrafter)技术,并慷慨地将其开源。ReDrafter代表了一种全新的LLM文本生成方法,不仅速度显著提升,而且“达到了最先进的性能水平”。该技术巧妙融合了束搜索(用于探索多种文本生成可能性)和动态树注意力(用于高效处理选择)两种先进技术。

尽管苹果的研究已经展示了ReDrafter的强大实力,但公司并未止步于此,而是选择与英伟达携手,共同将这项技术推向生产环境。作为合作的一部分,ReDrafter已被成功集成到英伟达的TensorRT-LLM工具中,该工具专为在NVIDIA GPU上加速LLM运行而设计。

合作成果显著:为了实现ReDrafter的集成,英伟达不仅新增了运算符,还优化了现有运算符,从而大幅提升了TensorRT-LLM适应复杂模型和解码方法的能力。在NVIDIA GPU上,使用TensorRT-LLM推理加速框架结合ReDrafter对数百亿参数的生产模型进行基准测试后发现,在贪婪解码模式下,生成的标记速度提高了惊人的2.7倍。这些基准测试结果充分表明,这项技术能够显著降低用户可能遇到的延迟,同时减少GPU的使用数量并降低功耗。

苹果的机器学习研究人员总结道:“随着LLM在生产应用中的日益普及,提高推断效率对于降低计算成本并减少用户延迟至关重要。通过将ReDrafter的新颖推测解码方法集成到NVIDIA TensorRT-LLM框架中,开发人员现在能够在NVIDIA GPU上为他们的生产LLM应用程序实现更快的标记生成速度。”

文章来源:https://9to5mac.com/2024/12/18/apple-collaborates-with-nvidia-to-research-faster-llm-performance/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消