Cloudflare优化MLOps:推动AI模型大规模高效部署

2023年12月21日 由 daydream 发表 242 0

Cloudflare的博客描述了其MLOps平台以及在大规模运行人工智能(AI)部署时的最佳实践。Cloudflare的产品,包括WAF攻击评分、机器人管理和全球威胁识别,依赖不断演进的机器学习(ML)模型。这些模型在增强客户保护和支持服务方面起着关键作用。Cloudflare在其网络中交付ML的规模达到了前所未有的水平,这强调了健全的ML训练方法论的重要性。


微信截图_20231221112104


Cloudflare的MLOps团队与数据科学家合作,实施最佳实践。通过JupyterHub部署在Kubernetes上的Jupyter笔记本,为数据探索和模型实验提供了可扩展和协作的环境。GitOps成为Cloudflare MLOps战略的基石,利用Git作为管理基础设施和部署流程的单一事实来源。ArgoCD被用于声明式GitOps,自动化应用程序和基础设施的部署和管理。


未来的路线图包括将平台迁移到Kubeflow——Kubernetes上的一个机器学习工作流平台,最近成为了CNCF孵化项目。这一转变由deployKF项目促成,它提供了Kubeflow组件的分布式配置管理。


为了帮助数据科学家自信、高效地启动项目,并使用正确的工具,Cloudflare MLOps团队提供了模型模板,这些模板作为带有示例模型的生产就绪仓库。这些模板目前是内部使用的,但Cloudflare计划开源它们。这些模板覆盖的用例有:


  • 训练模板:针对ETL流程、实验跟踪和基于DAG的编排进行了配置。


  • 批量推理模板:通过计划的模型优化高效处理。


  • 流式推理模板:针对使用FastAPI在Kubernetes上的实时推理进行了定制。


  • 可解释性模板:使用诸如Streamlit和Bokeh之类的工具生成模型洞察仪表板。


MLOps平台的另一个关键任务是高效地编排ML工作流。Cloudflare根据团队偏好和用例采用了各种编排工具:


  • Apache Airflow:具有广泛社区支持的标准DAG编排器。


  • Argo Workflows:用于微服务工作流的Kubernetes原生编排。


  • Kubeflow Pipelines:专为ML工作流设计,强调协作和版本控制。


  • Temporal:专门用于事件驱动应用的有状态工作流。


优化性能涉及理解工作负荷并相应调整硬件。Cloudflare强调为核心数据中心工作负荷和边缘推理使用GPU,并利用Prometheus的指标进行观测和优化。Cloudflare成功的采用涉及到简化ML流程、标准化管道,并向缺乏数据科学专业知识的团队介绍项目。


公司的愿景是未来数据科学在业务中发挥关键作用,这就是为什么Cloudflare投资其AI基础设施,并与其他公司(如Meta)合作,例如,在其平台上全球推广LLama2。

文章来源:https://www.infoq.com/news/2023/12/cloudflare-mlops-platform/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消