现在,企业比以往任何时候都更依赖数据和人工智能来创新、为客户提供价值和保持竞争力。机器学习(ML)的采用,产生了对工具、流程和组织原则的需求,以管理可靠、高效和可扩展的代码、数据和模型。这被广泛称为机器学习运维(MLOps)。
世界正迅速进入一个由基础模型和特别是大型语言模型(LLM)驱动的新的生成式人工智能时代。ChatGPT的发布进一步加速了这种转变。
生成式人工智能运维(GenAIOps)和大型语言模型运维(LLMOps)作为MLOps的演化,成为了新的和专门的领域,用于解决在生产中开发和管理生成式人工智能和LLM驱动的应用的挑战。
我们概述了生成式人工智能应用开发的过程,定义了GenAIOps和LLMOps的概念,并将它们与MLOps进行了比较。我们还解释了为什么掌握运维对于执行企业范围的人工智能转型的业务领导者来说至关重要。
为企业构建现代的生成式人工智能应用
通向现代生成式人工智能应用的旅程从一个基础模型开始,它经过一个预训练阶段,学习关于世界的基础知识,并获得新的能力。下一步是使用一个由人类生成的提示和回应的精心策划的数据集,来使模型与人类的偏好、行为和价值观保持一致。这给了模型精确的指令遵循能力。用户可以选择训练自己的基础模型或使用一个预训练的模型。
例如,各种基础模型,如NVIDIA Nemotron-3和社区模型,如Llama,都可以通过NVIDIA AI Foundations获得。这些模型都经过了NVIDIA专有的算法和系统优化,安全性和企业级支持,这些都由NVIDIA AI Enterprise覆盖。
接下来是定制阶段。一个基础模型与一个任务特定的提示结合,或者在一个精心策划的企业数据集上进行微调。基础模型的知识仅限于预训练和微调的数据,除非模型不断地重新训练,否则它会随着时间的推移而过时,这可能会很昂贵。
一个检索增强生成(RAG)的工作流被用来在查询时保持新鲜度和与外部知识保持一致。这是生成式人工智能应用开发生命周期中最关键的步骤之一,也是模型学习企业数据中隐藏的独特关系的时候。
在定制之后,模型就可以独立地或作为一个链的一部分来使用,这个链结合了多个基础模型和API,来提供端到端的应用逻辑。在这一点上,测试完整的AI系统的准确性、速度和漏洞,并添加安全措施,以确保模型的输出是准确的、安全的和可靠的,是至关重要的。
最后,反馈循环被关闭。用户通过用户界面与应用进行交互,或者使用系统仪器自动收集数据。这些信息可以用来更新模型和持续进行A/B测试,提高它对客户的价值。
一个企业通常有许多定制的生成式人工智能应用,适用于不同的用例、业务功能和工作流程。这个AI组合需要持续的监督和风险管理,以确保平稳的运行、合理的使用和及时的警报,以应对事件、偏见或回归。
GenAIOps通过自动化加速了从研究到生产的过程。它优化了开发和运营成本,提高了模型的质量,增加了模型评估过程的稳健性,并保证了可扩展的持续运营。
理解GenAIOps、LLMOps和RAGOps
生成式人工智能有几个相关的术语。我们在下面的部分概述了定义。
可以把人工智能看作是一系列嵌套的层次。在最外层,机器学习涵盖了智能自动化,其中程序的逻辑不是明确定义的,而是从数据中学习的。当我们深入探索时,我们会遇到一些特殊的人工智能类型,比如那些基于LLM或RAG的人工智能。同样,有一些嵌套的概念,使得可复现性、重用性、可扩展性、可靠性和效率成为可能。
每一个都建立在前一个的基础上,增加或改进能力——从基础的MLOps到新开发的RAGOps生命周期:
- MLOps是一个涵盖核心工具、流程和最佳实践的总体概念,用于在生产中进行端到端的机器学习系统开发和运维。
- GenAIOps是MLOps的扩展,用于开发和运维生成式人工智能解决方案。GenAIOps的独特特征是管理和与基础模型的交互。
- LLMOps是一种特殊的GenAIOps,专注于开发和生产化基于LLM的解决方案。
- RAGOps是LLMOps的一个子类,专注于交付和运维RAG,它也可以被认为是生成式人工智能和LLM的终极参考架构,推动了大规模的采用。
GenAIOps和LLMOps涵盖了整个人工智能生命周期。这包括基础模型的预训练,通过监督微调和人类反馈的强化学习(RLHF)来使模型与人类保持一致,定制到一个特定的用例并结合预/后处理逻辑,与其他基础模型、API和安全措施相结合。RAGOps的范围不包括预训练,并假设基础模型作为输入提供给RAG生命周期。
GenAIOps、LLMOps和RAGOps不仅仅是关于启用人工智能开发的工具或平台能力。它们还涵盖了设定目标和KPI、组织团队、衡量进度和持续改进运营流程的方法论。
为生成式人工智能和LLM扩展MLOps
有了关键概念的定义,我们就可以关注区分它们的细微差别。
MLOps
MLOps为在生产中开发、训练、评估、优化、部署、推理和监控机器学习模型提供了一个结构化的方法。
MLOps的关键思想和能力对于生成式人工智能也是相关的,包括以下几点。
- 基础设施管理:请求、配置和配置计算、存储和网络资源,以便以编程方式访问底层硬件。
- 数据管理:收集、摄取、存储、处理和标注用于训练和评估的数据。配置基于角色的访问控制;数据集搜索、浏览和探索;数据来源跟踪、数据记录、数据集版本控制、元数据索引、数据质量验证、数据集卡片和数据可视化的仪表盘。
- 工作流和管道管理:使用云资源或本地工作站;将数据准备、模型训练、模型评估、模型优化和模型部署步骤连接成一个端到端的自动化和可扩展的工作流,结合数据和计算。
- 模型管理:训练、评估和优化模型以供生产使用;将模型及其模型卡片存储和版本控制在一个集中的模型注册表中;评估模型风险,并确保符合标准。
- 交互式开发:管理开发环境并与外部版本控制系统、桌面IDE和其他独立开发工具集成,使团队更容易原型化、启动作业和协作项目。
GenAIOps
GenAIOps包括了MLOps、代码开发运维(DevOps)、数据运维(DataOps)和模型运维(ModelOps),涵盖了从语言、图像到多模态的所有生成式人工智能工作负载。数据策划和模型训练、定制、评估、优化、部署和风险管理必须为生成式人工智能重新思考。
新兴的GenAIOps能力包括:
- 合成数据管理:用一种新的本地生成式人工智能能力扩展数据管理。通过域随机化生成合成训练数据,增加迁移学习能力。声明式地定义和生成边缘情况,以评估、验证和认证模型的准确性和稳健性。
- 嵌入管理:将任何模态的数据样本表示为密集的多维嵌入向量;在向量数据库中生成、存储和版本控制嵌入。可视化嵌入,以进行改进的探索。通过向量相似性搜索,为RAG、数据标注或数据策划找到相关的上下文信息,作为主动学习循环的一部分。对于GenAIOps,使用嵌入和向量数据库取代了MLOps中的特征管理和特征存储。
- 代理/链管理:定义复杂的多步应用逻辑。将多个基础模型和API结合在一起,并按照RAG的模式,用外部记忆和知识增强基础模型。调试、测试和跟踪具有非确定性输出或复杂规划策略的链,实时和离线地可视化和检查多步链的执行流程。代理/链管理是整个生成式人工智能生命周期中的一个重要部分,作为推理管道的一个关键部分。它是MLOps中的工作流/管道管理的扩展。
- 安全措施:在将敌对或不支持的输入发送给基础模型之前,拦截它们。确保模型的输出是准确的、相关的、安全的和可靠的。维护和检查对话和活动上下文的状态,检测意图,并在执行内容策略的同时决定行动。安全措施建立在基于规则的AI输入/输出的预/后处理之上,属于模型管理的范畴。
- 提示管理:创建、存储、比较、优化和版本控制提示。在提示工程过程中分析输入和输出,管理测试用例。创建参数化的提示模板,选择最佳的推理时超参数和系统提示,作为用户与应用交互时的起点;并根据每个基础模型调整提示。提示管理,凭借其独特的能力,是生成式人工智能的实验管理的一个逻辑扩展。
LLMOps
LLMOps是更广泛的GenAIOps范式的一个子集,专注于在生产应用中运维基于变换器的网络,用于语言用例。语言是一种基础的模态,可以与其他模态结合,来指导AI系统的行为,例如,NVIDIA Picasso是一个多模态的系统,结合了文本和图像模态,用于视觉内容的制作。
在这种情况下,文本驱动AI系统的控制循环,其他数据模态和基础模型被用作特定任务的插件。自然语言界面扩展了用户和开发者的基础,并降低了AI的采用障碍。LLMOps涵盖的操作集包括提示管理、代理管理和RAGOps。
利用RAGOps推动生成型AI的应用
RAG是一种旨在提升通用语言模型(LLM)能力的工作流。它在查询时从专有数据集中获取信息,并将生成的答案基于事实,从而保证了事实的正确性。传统的模型可以在不需要外部知识的情况下,对情感分析等任务进行微调,而RAG则适用于需要访问外部知识源的任务,如问答。
RAG将一个信息检索组件和一个文本生成器结合起来。这个过程包括两个步骤:
- 文档检索和摄入——这是将文档摄入并用一个嵌入模型将文本分块,将它们转换为向量并存储在一个向量数据库中的过程。
- 用户查询和响应生成——用户查询在查询时与嵌入模型一起转换为嵌入空间,然后用它在向量数据库中搜索最匹配的分块和文档。原始的用户查询和最优的文档被输入到一个定制的生成器LLM中,它生成一个最终的响应并返回给用户。
它还有一个优点,就是可以在不需要全面重新训练的情况下更新它的知识。这种方法确保了生成响应的可靠性,并解决了输出中的“幻觉”问题。
RAGOps是LLMOps的一个扩展。它涉及到管理文档和数据库,不仅是传统意义上的,还有向量化的格式,以及嵌入和检索模型。RAGOps将生成型AI应用开发的复杂性简化为一个模式。因此,它使更多的开发者能够构建新的强大的应用,并降低了AI的应用障碍。
GenAIOps带来了许多商业好处
随着研究人员和开发人员掌握GenAIOps,超越DevOps、DataOps和ModelOps,它带来了许多商业好处。这些包括以下几点。
更快的上市时间:生成型AI工作流的端到端自动化和加速,缩短了AI产品的迭代周期,使组织更具动态性和适应新挑战的能力。 更高的产出和创新:简化AI系统开发过程,提高抽象层次,使GenAIOps能够进行更多的实验,提高企业应用开发者的参与度,优化AI产品的发布。
- 风险缓解:基础模型有潜力改变行业,但也有可能放大其训练数据中固有的偏差或不准确性。一个基础模型的缺陷会传播到所有的下游模型和链条中。GenAIOps确保了对最小化这些缺陷和直面道德挑战采取积极的态度。
- 流畅的协作:GenAIOps使得在一个项目中,从数据工程到研究到产品工程的团队之间能够顺利地交接,并促进项目之间的成果和知识共享。它需要严格的操作规范、标准化和协作工具,以保持多个团队的同步。
- 精益运营:GenAIOps通过工作负载优化、自动化常规任务和为AI生命周期中的每个阶段提供专业工具,来减少浪费。这导致了更高的生产力和更低的总拥有成本(TCO)。
- 可复现性:GenAIOps帮助记录代码、数据、模型和配置,确保一个成功的实验运行可以按需复现。这对于受监管的行业尤为重要,因为可复现性不再是一个特性,而是一个做生意的硬性要求。
生成型AI的变革潜力
将GenAIOps融入组织的结构不仅仅是一个技术升级。它是一个具有长期积极效果的战略举措,对企业内部的客户和最终用户都有益。
- 提升用户体验:GenAIOps提供了AI应用在生产中的最佳性能。企业可以提供更好的用户体验。无论是通过聊天机器人、自主代理、内容生成器还是数据分析工具。
- 开拓新的收入来源:通过GenAIOps促进的生成型AI的定制应用,企业可以进入以前未涉足的领域,开拓新的收入来源,多样化他们的产品。
- 引领道德标准:在一个品牌形象与道德考量密切相关的世界里,那些主动应对AI潜在陷阱的企业,由GenAIOps指导,可以成为行业的领导者,为其他企业树立标杆。 AI的世界是充满活力、快速发展和潜力无限的。基础模型,凭借其在理解和生成文本、图像、分子和音乐方面的无与伦比的能力,处于这场革命的前沿。
当考察AI运维的演变,从MLOps到GenAIOps,LLMOps和RAGOps,企业必须灵活、进步并优先考虑运维的精确性。通过对GenAIOps的全面理解和战略应用,组织有能力塑造生成型AI革命的轨迹。