NVIDIA发布开源软件TensorRT-LLM，助力H100 GPU加速LLM推理

2023年09月11日由 daydream 发表 574 0

NVIDIA最近宣布将在未来几周发布TensorRT-LLM，这是一个开源软件，有望加速和优化LLM推理。

NVIDIA-building-1536x864-1

TensorRT-LLM涵盖了一系列优化、预处理和后处理步骤，以及多GPU/多节点通信原语，旨在在NVIDIA GPU上实现前所未有的性能水平。

值得注意的是，该软件使开发人员能够尝试新的LLM，提供卓越的性能和定制能力，而无需精通C++或NVIDIA CUDA。

Databricks工程副总裁Naveen Rao对TensorRT-LLM表示赞赏，称其为“易于使用，功能丰富，具有令牌流式传输、在动态批处理、分页注意力、量化等功能。”他强调，它在NVIDIA GPU上为LLM提供了最先进的性能，最终使客户受益于成本节省。

性能基准测试显示了TensorRT-LLM在最新的NVIDIA Hopper架构上带来的显著改进。例如，单独使用H100的速度比A100快4倍。加上TensorRT-LLM和其中的优势，包括在途批处理，总吞吐量增加了8倍，实现了最高的吞吐量。

此外，与A100 GPU相比，TensorRT-LLM还展示了加速Meta 700亿参数Llama 2模型推理性能的惊人提升，提高了4.6倍。

当前的LLM非常灵活，可以执行多种任务，输出大小各不相同。TensorRT-LLM通过在途批处理解决了这个挑战，这是一种优化的调度技术，允许并发执行请求。

随着LLM生态系统的快速创新和更大、更高级的模型的出现，多GPU协调和优化的需求变得至关重要。TensorRT-LLM利用了张量并行性，一种模型并行技术，以在多个GPU和服务器上高效地扩展LLM推理。这种自动化消除了开发人员手动划分模型和管理跨GPU执行的需求。

TensorRT-LLM还为开发人员提供了丰富的开源NVIDIA AI内核，包括FlashAttention和masked multi-head attention，以优化随着模型演进而改进。

开发人员可以通过NVIDIA Developer Program申请提前访问TensorRT-LLM。

文章来源：https://analyticsindiamag.com/nvidia-introduces-tensorrt-llm-to-accelerate-llm-inference-on-h100-gpus/

标签：

NVIDIA TensorRT-LLM LLM

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Adept AI开源大语言模型Persimmon-8B

下一篇 Meta加快开发新聊天机器人：着眼于超越GPT-4

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市