基于Transformer的大型语言模型在NLP领域大放异彩，但训练与实施成本高

2024年06月14日由 neo 发表 347 0

基于Transformer的生成式大型语言模型（LLM）在自然语言处理（NLP）的广泛应用中展现了强大的优势。尽管众多应用程序因LLM的广泛应用而受益匪浅，但高昂的训练和实施成本往往令大多数开发人员望而却步。为了应对这一挑战，OpenAI、Google和百度等顶级AI公司推出了语言模型即服务（LMaaS），通过API为开发人员提供对LLM的访问权限。

QQ截图20240614150413

LMaaS场景下的挑战

在LMaaS场景中，开发人员向LLM服务发送用户输入消息和特定指令。为提高服务质量（QoS）并支持更多客户，服务提供商不断寻求缩短响应时间并提高吞吐量的方法。然而，现有的系统（如TensorFlow Serving和Triton Inference Server）在处理查询时存在效率低下的问题。这些系统采用先到先得（FCFS）的查询执行方式和固定的批处理大小，限制了GPU的并行计算能力，并可能导致内存不足（OOM）问题。

连续批处理方案及其局限

有观点建议采用连续批处理来应对上述问题，即动态地删除已完成的请求并添加新请求。然而，这种方法往往依赖于保守的GPU内存管理技术，牺牲了GPU的并行处理能力来限制吞吐量。尽管这有助于减少内存占用，但模型量化和修剪等策略可能会降低生成输出的质量。

Magnus系统：优化LMaaS中的批处理服务

中国的一个人工智能研究团队提出了Magnus系统，该系统巧妙地利用应用程序级和用户级语义信息以及用户输入的长度来预测请求生成长度。Magnus由四个核心部分组成：批处理调度程序、自适应批处理程序、服务时间估算器和生成长度预测器。

生成长度预测器：使用随机森林回归器，根据用户输入、应用程序级语义特征和用户级语义特征来估计请求长度。
自适应批处理程序：根据预测长度将相似长度的请求分组，并动态选择最佳的批处理大小，以最大限度地减少计算资源的浪费。
批处理调度程序：基于最高响应率优先（HRRN）策略选择批次，以最小化请求排队时间和响应时间。
服务时间估计器：采用KNN回归预测批处理服务时间，从而进一步优化服务质量。

测试验证Magnus系统的性能

在NVIDIA V100 GPU上运行的ChatGLM-6B实例测试中，Magnus系统展现出了显著的性能提升。与基线方法相比，Magnus将请求吞吐量提高了234%，并将响应时间缩短了89.7%。这一显著的性能增强证明了利用生成长度预测来优化LMaaS中批处理服务的有效性。

文章来源：https://www.marktechpost.com/2024/06/13/this-ai-paper-from-china-propose-magnus-revolutionizing-efficient-llm-serving-for-lmaas-with-semantic-based-request-length-prediction/

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Stability AI开源Stable Diffusion 3 Medium文生图模型

下一篇 NVIDIA开源通用大模型Nemotron-4 340B

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来