NVIDIA发布开源软件TensorRT-LLM,助力H100 GPU加速LLM推理

2023年09月11日 由 daydream 发表 393 0

NVIDIA最近宣布将在未来几周发布TensorRT-LLM,这是一个开源软件,有望加速和优化LLM推理。


NVIDIA-building-1536x864-1


TensorRT-LLM涵盖了一系列优化、预处理和后处理步骤,以及多GPU/多节点通信原语,旨在在NVIDIA GPU上实现前所未有的性能水平。


值得注意的是,该软件使开发人员能够尝试新的LLM,提供卓越的性能和定制能力,而无需精通C++或NVIDIA CUDA。


Databricks工程副总裁Naveen Rao对TensorRT-LLM表示赞赏,称其为“易于使用,功能丰富,具有令牌流式传输、在动态批处理、分页注意力、量化等功能。”他强调,它在NVIDIA GPU上为LLM提供了最先进的性能,最终使客户受益于成本节省。


性能基准测试显示了TensorRT-LLM在最新的NVIDIA Hopper架构上带来的显著改进。例如,单独使用H100的速度比A100快4倍。加上TensorRT-LLM和其中的优势,包括在途批处理,总吞吐量增加了8倍,实现了最高的吞吐量。


此外,与A100 GPU相比,TensorRT-LLM还展示了加速Meta 700亿参数Llama 2模型推理性能的惊人提升,提高了4.6倍。


当前的LLM非常灵活,可以执行多种任务,输出大小各不相同。TensorRT-LLM通过在途批处理解决了这个挑战,这是一种优化的调度技术,允许并发执行请求。


随着LLM生态系统的快速创新和更大、更高级的模型的出现,多GPU协调和优化的需求变得至关重要。TensorRT-LLM利用了张量并行性,一种模型并行技术,以在多个GPU和服务器上高效地扩展LLM推理。这种自动化消除了开发人员手动划分模型和管理跨GPU执行的需求。


TensorRT-LLM还为开发人员提供了丰富的开源NVIDIA AI内核,包括FlashAttention和masked multi-head attention,以优化随着模型演进而改进。


开发人员可以通过NVIDIA Developer Program申请提前访问TensorRT-LLM。

文章来源:https://analyticsindiamag.com/nvidia-introduces-tensorrt-llm-to-accelerate-llm-inference-on-h100-gpus/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消