NVIDIA最近宣布将在未来几周发布TensorRT-LLM,这是一个开源软件,有望加速和优化LLM推理。
TensorRT-LLM涵盖了一系列优化、预处理和后处理步骤,以及多GPU/多节点通信原语,旨在在NVIDIA GPU上实现前所未有的性能水平。
值得注意的是,该软件使开发人员能够尝试新的LLM,提供卓越的性能和定制能力,而无需精通C++或NVIDIA CUDA。
Databricks工程副总裁Naveen Rao对TensorRT-LLM表示赞赏,称其为“易于使用,功能丰富,具有令牌流式传输、在动态批处理、分页注意力、量化等功能。”他强调,它在NVIDIA GPU上为LLM提供了最先进的性能,最终使客户受益于成本节省。
性能基准测试显示了TensorRT-LLM在最新的NVIDIA Hopper架构上带来的显著改进。例如,单独使用H100的速度比A100快4倍。加上TensorRT-LLM和其中的优势,包括在途批处理,总吞吐量增加了8倍,实现了最高的吞吐量。
此外,与A100 GPU相比,TensorRT-LLM还展示了加速Meta 700亿参数Llama 2模型推理性能的惊人提升,提高了4.6倍。
当前的LLM非常灵活,可以执行多种任务,输出大小各不相同。TensorRT-LLM通过在途批处理解决了这个挑战,这是一种优化的调度技术,允许并发执行请求。
随着LLM生态系统的快速创新和更大、更高级的模型的出现,多GPU协调和优化的需求变得至关重要。TensorRT-LLM利用了张量并行性,一种模型并行技术,以在多个GPU和服务器上高效地扩展LLM推理。这种自动化消除了开发人员手动划分模型和管理跨GPU执行的需求。
TensorRT-LLM还为开发人员提供了丰富的开源NVIDIA AI内核,包括FlashAttention和masked multi-head attention,以优化随着模型演进而改进。
开发人员可以通过NVIDIA Developer Program申请提前访问TensorRT-LLM。