XGrammar:结构化生成领域的一次变革性进步

2024年11月25日 由 neo 发表 180 0

随着大型语言模型(LLM)的蓬勃发展,结构化生成领域的重要性日益凸显。这些先进的模型不仅能够生成接近人类的文本,还被要求输出符合严格格式的内容,如JSON、SQL等特定领域的语言。代码生成、机器人控制、结构化查询等应用场景,都高度依赖于LLM的这种结构化输出能力。然而,如何在确保输出符合特定结构的同时,不牺牲速度或效率,仍然是一个亟待解决的重大挑战。

尽管LLM技术取得了显著进步,但结构化输出生成仍面临低效率的困扰。一个核心难题在于,如何在输出生成过程中高效地管理语法约束。传统方法,如上下文无关文法(CFG)解释,需要处理模型词汇表中的每个可能标记,而词汇量往往庞大,可能超过128,000个。此外,维护堆栈状态以跟踪递归语法规则,还会进一步增加运行时延迟。因此,现有系统常常面临高延迟和资源使用增加的问题,难以应用于实时或大规模场景。

为了应对这些挑战,当前的结构化生成工具采用了约束解码方法,以确保输出符合预定义规则。这些方法通过在解码步骤中过滤掉无效标记,虽然有效,但效率上仍有待提升。因为约束解码需要将每个标记与整个堆栈状态进行评估,而CFG的递归特性又进一步加剧了运行时处理的复杂性。这些限制严重影响了现有系统的可扩展性和实用性,特别是在处理复杂结构或大词汇量时。

为了突破这些限制,卡内基梅隆大学、NVIDIA、上海交通大学和加州大学伯克利分校的研究人员携手开发了XGrammar,这一创新的结构化生成引擎。XGrammar通过引入标记分类的新方法,显著降低了输出生成过程中的计算负担。它将标记分为两类:可以预先验证的上下文无关标记和需要运行时评估的上下文相关标记。这种划分使得系统能够更高效地处理标记,减少不必要的计算。

XGrammar的技术实现包含多个关键创新点。它采用字节级下推自动机高效处理CFGs,能够轻松应对不规则的标记边界和嵌套结构。此外,自适应标记掩码缓存技术预先计算并存储上下文无关标记的有效性,在大多数情况下,能够覆盖超过99%的标记。对于剩余的上下文相关标记,系统通过一个持久执行堆栈进行处理,允许快速分支和回滚操作。这些创新使得XGrammar在预处理阶段就能够与LLM的初始提示处理重叠,从而实现结构化生成的近零延迟。

unnamed(4)

性能评估结果显示,XGrammar在结构化生成领域具有显著优势。在JSON文法任务中,该系统实现的标记掩码生成时间少于40微秒,与传统方法相比,速度提高了多达100倍。与Llama 3.1模型集成后,XGrammar在NVIDIA H100 GPU上实现了端到端结构化输出生成的80倍性能提升。此外,内存优化技术将存储需求从原始的160 MB减少到仅0.46 MB,占比仅为0.2%。这些令人瞩目的结果充分展示了XGrammar在处理大规模任务时的空前效率。

研究人员在开发XGrammar时,重点关注了以下几个方面:

· 标记分类通过预先计算上下文无关标记并减少对上下文相关标记的运行时检查,XGrammar显著降低了计算开销。
· 内存效率自适应标记掩码缓存技术将内存使用量减少到原始需求的0.2%,展现了极高的可扩展性。
· 性能提升在CFG处理上实现了100倍的速度提升,并在结构化输出生成上取得了80倍的性能飞跃,XGrammar为效率设立了新的标杆。
· 跨平台部署XGrammar支持包括客户端浏览器在内的广泛平台,使其能够在智能手机等便携设备上轻松使用。
· 与LLM框架集成系统与流行的LLM模型(如Llama 3.1)无缝集成,确保了兼容性并降低了采用难度。

unnamed(5)

综上所述,XGrammar无疑是结构化生成领域的一次变革性进步。它成功解决了传统CFG处理和约束解码中的低效率问题,为生成结构化输出提供了可扩展、高性能的解决方案。其创新技术,如标记分类、内存优化和平台兼容性,使其成为推动AI应用发展的重要工具。XGrammar以高达100倍的速度提升和极低的延迟,设定了结构化生成的新标准,有效满足了现代AI系统的需求。

文章来源:https://www.marktechpost.com/2024/11/24/cmu-researchers-propose-xgrammar-an-open-source-library-for-efficient-flexible-and-portable-structured-generation/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消