如何构建产品化机器学习系统？

2019年05月28日由 sunlei 发表 945524 0

为生产而构建的机器学习系统需要有效地培训、部署和更新机器学习模型。在决定每个系统的体系结构时，必须考虑各种因素。这篇博文的部分内容是基于Coursera和GCP(谷歌云平台)关于构建生产机器学习系统的课程。下面，我将列出构建可伸缩机器学习系统时需要考虑的一些问题:

扩展模型培训和服务流程。

跟踪不同超参数的多个实验。

以预测的方式重现结果和再培训模型。

跟踪不同的模型及其随时间的模型性能（即模型漂移）。

使用新数据和回滚模型对模型进行动态再培训。

Uber（Michaelangelo）、谷歌、Airbnb (Bighead)和Facebook (FBlearner Flow)这样的公司都有解决上述问题的平台。但并不是所有人都拥有这些大公司所拥有的资源。也就是说，让我们来看看如何构建我们自己的生产ML系统。

机器学习(ML)系统的组成部分

对于ML的不同领域，如计算机视觉、NLP(自然语言处理)和推荐系统，有很多关于正在开发的新模型的文章，如BERT、YOLO、SSD等。然而，在大多数情况下，构建模型只占生产ML系统工作的5-10% !

还有很多其他组件需要考虑——数据接收、数据预处理、模型培训、模型服务和模型监控。

[caption id="attachment_40741" align="aligncenter" width="723"]

典型的ML管道[/caption]

数据接收和处理

对于大多数应用程序，数据可以分为三类:

存储在Amazon S3或谷歌云存储等系统中的非结构化数据。

结构化数据存储在关系数据库中，如MySQL或分布式关系数据库服务，如Amazon RDS、谷歌Big Query等。

来自web应用程序或物联网设备的流数据。

ML管道中的第一步是从相关数据源获取正确的数据，然后为应用程序清理或修改数据。以下是一些用于摄取和操作数据的工具:

DataflowRunner——谷歌云上的Apache Beam运行器。Apache Beam可以用于批处理和流处理，因此同样的管道可以用于处理批处理数据(在培训期间)和预测期间的流数据。

ApacheAirflow——Airflow的托管版本是GCP的云编辑器，用于工作流编排。气流可用于创作、安排和监控工作流。

流数据——有各种可用于接收和处理流数据的工具，如Apache Kafka、Spark Streaming和Cloud Pub/Sub。

Argo——Argo是一个开源容器本地工作流引擎，用于协调Kubernetes上的并行作业。Argo可用于指定、调度和协调Kubernetes上复杂工作流和应用程序的运行。

下图显示了如何在谷歌云上选择正确的存储选项：

数据验证

需要通过数据验证来减少培训服务的偏差。必须检查输入，以确定它们是否是正确的类型，并且必须持续监视输入分布，因为如果输入分布发生了显著变化，那么模型性能将会下降，这将需要重新培训。它还可以指向输入源类型的更改或某种客户机端错误。

IO和Compute—根据用例，训练时间可以是IO(输入/输出)界限、Compute界限，或者两者都有!计算边界意味着需要更多的CPU/GPU/TPU资源来减少训练时间。这可以通过增加更多的工人相对容易地完成。

IO绑定意味着读取数据并将其传输到计算资源（CPU/GPU/TPU）需要更多的时间，而在数据加载期间，计算资源长时间处于空闲状态。以下是从最慢到最快读取文件以解决IO速度问题的三种方法：

使用pandas或python命令读取-这是最慢的方法，应该在处理小数据集以及原型制作和调试期间使用。

使用TysFraseFraseFrase-这些函数在C++中实现，因此它们比上述方法更快。

tfrecord-这是最快的方法。tfrecord格式是用于存储二进制记录序列的简单格式。

raw_dataset = tf.data.TFRecordDataset(filenames)

模型训练

对于模型训练，可以使用完全托管的服务，如AWS Sagemaker或Cloud ML Engine。使用这两种服务，用户不必担心提供实例来扩展培训过程，他们还支持托管模型服务。要创建自己的分布式培训系统，请参见下面的——

分布式训练——TensorFlow支持多种分布式训练策略。它们可分为两类：

数据并行性——在数据并行性中，数据被分成更小的组，在不同的工人/机器上进行培训，然后每次运行时更新参数。下面是一些更新参数的技术：

参数服务器策略(Async)——在这种方法中，特定的工作人员充当参数服务器。这是最常用的技术，也是最稳定的。由于这是一种异步方法，有时不同工作者的参数可能不同步，这会增加收敛时间。

[caption id="attachment_40743" align="aligncenter" width="580"]

同步随机梯度下降源参数服务器架构[/caption]

All Reduce(镜像策略)——这是一种相对较新的方法，其中每个worker持有参数的副本，并且在每次传递之后，所有worker都被同步。当工人之间有高速连接时，这种方法很有效。因此，它适用于TPUs和具有多个gpu的工作人员。

Horovod——Horovod是Uber发布的一个开源分布式培训框架，它使分布式培训更加容易，并且支持TensorFlow、Keras、PyTorch和Apache MXNet。

模型并行性——模型并行性不同于数据并行性，因为这里我们将模型图分布在不同的worker上。这是非常大的模型所需要的。Mesh TensorFlow和GPipe是一些可以用于模型并行化的库。

模型预测——静态服务vs动态服务

模型预测有三种方法——

批量预测或脱机预测——在这种情况下，脱机对大量输入进行预测，预测结果与输入一起存储，供以后使用。这适用于提前知道输入的应用程序，例如预测房价、离线生成建议等。还可以使用预测API;然而，只加载模型并进行预测更便宜、更快、更简单。

在线预测——在这种情况下，输入事先未知，必须根据用户提供的输入进行预测。对于这些应用程序，最好使用TensorFlow service、Cloud ML引擎或Cloud AutoML创建可扩展的性能API。在某些应用程序中，预测延迟非常重要，比如信用卡欺诈预测等等。

边缘预测——在这种情况下，预测必须在边缘设备上完成，如手机、Raspberry Pi或 Coral Edge TPU。在这些应用程序中，必须压缩模型大小以适合这些设备，并且还必须降低模型延迟。缩小模型大小有三种方法:

图形冻结-冻结图形将变量节点转换为常量节点，然后与图形一起存储，从而减小模型大小。

图形转换工具-图形转换工具删除预测期间未使用的节点，并帮助减少模型大小（例如，在推断期间可以删除批处理规范层）。

重量量化-此方法导致最大尺寸减小。通常，权重存储为32位浮点数；但是，通过将其转换为8位整数，可以显著减小模型大小。然而，这会导致精度降低，这在不同的应用中有所不同。为了防止精度损失，可以使用量化感知训练和量化参数调整。

ML系统的开源平台

Kubeflow——Kubeflow是一个构建在Kubernetes之上的开源平台，支持可伸缩的机器学习模型培训和服务。Kubeflow使用Seldon Core在Kubernetes集群上部署机器学习模型。Kubeflow可以运行在任何云基础设施上，使用Kubeflow的一个关键优势是，系统可以部署在一个本地基础设施上。

[caption id="attachment_40744" align="aligncenter" width="1069"]

Kubeflow[/caption]

MLFlow是一个用于管理机器学习生命周期的开源平台。它有三个主要组成部分，如下图所示:

[caption id="attachment_40745" align="aligncenter" width="1143"]

MLFlow源组件[/caption]

Polyxon-Polyxon是管理机器学习应用程序生命周期的另一个开源平台。Polyxon也在Kubernetes上运行。

TensorFlow Extended (TFX)——TFX是是用于部署生产ML管道的端到端平台。TensorFlow服务和Kubernetes可以用来创建一个可扩展的模型服务系统。TFX还有其他组件，如TFX转换和TFX数据验证。TFX使用气流作为任务的有向非循环图(DAGs)来创建工作流。TFX使用Apache Beam运行批处理和流数据处理任务。

MLFlow可以在kubeflow的基础上解决博客开头列出的大部分问题。与TFX相比，Kubeflow的优势在于，由于Kubeflow是构建在Kubernetes之上的，所以您不必担心伸缩性等问题。

结论

这些只是在构建生产ML系统时需要担心的一些事情。其他各种问题包括日志记录和监视各种服务的状态。还有许多其他工具，比如Istio，可以用来保护和监视系统。云原生计算基金会构建并支持云本地可扩展系统的各种其他项目。

许多工具仍在积极开发中，因此，构建可扩展的机器学习系统仍然是一个非常具有挑战性的问题。我热衷于建立生产机器学习系统，以解决具有挑战性的现实问题。如果你对此也感兴趣，请持续关注我的更新~

标签：

学习 Python机器学习

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇用spaCy自然语言处理复盘复联无限战争（下）

下一篇十大Python图像处理工具

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术