Cloudflare优化MLOps：推动AI模型大规模高效部署

2023年12月21日由 daydream 发表 242 0

Cloudflare的博客描述了其MLOps平台以及在大规模运行人工智能（AI）部署时的最佳实践。Cloudflare的产品，包括WAF攻击评分、机器人管理和全球威胁识别，依赖不断演进的机器学习（ML）模型。这些模型在增强客户保护和支持服务方面起着关键作用。Cloudflare在其网络中交付ML的规模达到了前所未有的水平，这强调了健全的ML训练方法论的重要性。

微信截图_20231221112104

Cloudflare的MLOps团队与数据科学家合作，实施最佳实践。通过JupyterHub部署在Kubernetes上的Jupyter笔记本，为数据探索和模型实验提供了可扩展和协作的环境。GitOps成为Cloudflare MLOps战略的基石，利用Git作为管理基础设施和部署流程的单一事实来源。ArgoCD被用于声明式GitOps，自动化应用程序和基础设施的部署和管理。

未来的路线图包括将平台迁移到Kubeflow——Kubernetes上的一个机器学习工作流平台，最近成为了CNCF孵化项目。这一转变由deployKF项目促成，它提供了Kubeflow组件的分布式配置管理。

为了帮助数据科学家自信、高效地启动项目，并使用正确的工具，Cloudflare MLOps团队提供了模型模板，这些模板作为带有示例模型的生产就绪仓库。这些模板目前是内部使用的，但Cloudflare计划开源它们。这些模板覆盖的用例有：

训练模板：针对ETL流程、实验跟踪和基于DAG的编排进行了配置。

批量推理模板：通过计划的模型优化高效处理。

流式推理模板：针对使用FastAPI在Kubernetes上的实时推理进行了定制。

可解释性模板：使用诸如Streamlit和Bokeh之类的工具生成模型洞察仪表板。

MLOps平台的另一个关键任务是高效地编排ML工作流。Cloudflare根据团队偏好和用例采用了各种编排工具：

Apache Airflow：具有广泛社区支持的标准DAG编排器。

Argo Workflows：用于微服务工作流的Kubernetes原生编排。

Kubeflow Pipelines：专为ML工作流设计，强调协作和版本控制。

Temporal：专门用于事件驱动应用的有状态工作流。

优化性能涉及理解工作负荷并相应调整硬件。Cloudflare强调为核心数据中心工作负荷和边缘推理使用GPU，并利用Prometheus的指标进行观测和优化。Cloudflare成功的采用涉及到简化ML流程、标准化管道，并向缺乏数据科学专业知识的团队介绍项目。

公司的愿景是未来数据科学在业务中发挥关键作用，这就是为什么Cloudflare投资其AI基础设施，并与其他公司（如Meta）合作，例如，在其平台上全球推广LLama2。

文章来源：https://www.infoq.com/news/2023/12/cloudflare-mlops-platform/

标签：

人工智能模型 Cloudflare

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 bunq银行的新AI聊天机器人Finn：让你的财务更简单

下一篇 LangChain和Redis合作开发工具以提高财务文档分析准确性

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Sam Altman离职事件时间线