苹果与英伟达携手优化大型语言模型文本生成性能

2024年12月19日由 neo 发表 190 0

在今日的博客文章中，苹果公司的工程师们详细分享了与英伟达合作的新进展，旨在进一步提升大型语言模型（LLM）的文本生成速度。

QQ截图20241219143222

今年早些时候，苹果发布了其创新的Recurrent Drafter（ReDrafter）技术，并慷慨地将其开源。ReDrafter代表了一种全新的LLM文本生成方法，不仅速度显著提升，而且“达到了最先进的性能水平”。该技术巧妙融合了束搜索（用于探索多种文本生成可能性）和动态树注意力（用于高效处理选择）两种先进技术。

尽管苹果的研究已经展示了ReDrafter的强大实力，但公司并未止步于此，而是选择与英伟达携手，共同将这项技术推向生产环境。作为合作的一部分，ReDrafter已被成功集成到英伟达的TensorRT-LLM工具中，该工具专为在NVIDIA GPU上加速LLM运行而设计。

合作成果显著：为了实现ReDrafter的集成，英伟达不仅新增了运算符，还优化了现有运算符，从而大幅提升了TensorRT-LLM适应复杂模型和解码方法的能力。在NVIDIA GPU上，使用TensorRT-LLM推理加速框架结合ReDrafter对数百亿参数的生产模型进行基准测试后发现，在贪婪解码模式下，生成的标记速度提高了惊人的2.7倍。这些基准测试结果充分表明，这项技术能够显著降低用户可能遇到的延迟，同时减少GPU的使用数量并降低功耗。

苹果的机器学习研究人员总结道：“随着LLM在生产应用中的日益普及，提高推断效率对于降低计算成本并减少用户延迟至关重要。通过将ReDrafter的新颖推测解码方法集成到NVIDIA TensorRT-LLM框架中，开发人员现在能够在NVIDIA GPU上为他们的生产LLM应用程序实现更快的标记生成速度。”

文章来源：https://9to5mac.com/2024/12/18/apple-collaborates-with-nvidia-to-research-faster-llm-performance/

标签：

苹果英伟达

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Odyssey创业公司开发AI工具，可将文本或图像转为3D渲染

下一篇科技巨头激战人工智能领域，NVIDIA芯片需求激增

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来