简介
在本文中,我们将创建一个简单的 Azure 项目,根据一组特征预测汽车销售价格。我采取的步骤如下:
设置资源
在本文的每个阶段,我都会努力简化我们在云领域使用的技术术语。Azure 项目位于一个资源组中。资源组是一个逻辑容器,允许你组织、容纳和管理资源。工作区是资源组中的一个协作环境,允许用户在与其专业/任务(如数据科学和分析)相关的特定资源。
图2
创建免费的 Azure 订阅帐户后,导航到 Azure 主页,在顶部的搜索栏中输入 “Azure Machine Learning”,这是我们将在本项目中使用的资源。由于我们还没有将资源 “安置 ”在任何工作区中,因此请导航到左上角,然后单击 “+创建”,再单击 “新建工作区”。
图3
选择订阅并创建一个新的资源组来容纳我们的工作区(和资源),然后单击 “审查 + 创建”。Azure 产品的部署需要一两分钟的时间,所以请耐心等待。创建完成后,你将被重定向到主页,在这里你可以选择新创建的资源组,如下所示。
图4
你会发现在 Azure 机器学习工作区旁边还部署了其他工作区/资源。这些是支持项目的后台服务,不需要交互。单击 Azure 机器学习工作区,滚动到底部,然后单击 Launch Studio 按钮访问资源。
资源是云提供商提供的应用程序。与任何应用程序类似,资源也需要基础设施才能运行,例如,你的网络浏览器需要一台笔记本电脑才能访问。这就是计算集群的作用所在。集群提供运行资源所需的处理能力和虚拟架构。(听说过虚拟机吗?) 在仪表板中,向下导航并选择添加计算。
图5
图6
设计测试管道
现在我们有了必要的基础架构,让我们来设计一个管道,用于摄取数据、清理数据、准备数据、为模型评分并进行预测。在仪表板上,左侧的侧边栏为我们的项目提供了有用的快捷方式。点击左侧边栏上的设计器。你将被重定向到管道设计器仪表板。在搜索栏上搜索汽车价格数据(原始数据)。该测试数据集包含各种汽车的价格。查看特征/列,注意需要清理的特征/列。关于在处理线性回归模型时哪些特征需要准备,有什么提示吗?
图7
你所做的就是在管道中添加一个模块。模块是一个可重复使用的构件,用于在管道中执行各种相关任务。我们需要选择相关列,通过处理缺失值来清理数据,对数据进行规范化处理,并对分类列进行编码,然后才能对数据进行建模。
在我们进行了小型数据探索之后,我们意识到在提交管道的第一部分之前有几件事需要处理:
图8
单击 “配置并提交”。这将作为我们管道的第一部分。管道将作为作业提交。作业通常是指在管道或工作流中执行的任务或流程。导航到侧边栏上的作业,你会看到以下内容。
图9
接下来,我们需要对分类列进行编码。返回设计器并按照以下步骤操作:
图10
图11
最后
图12
图13
图13
点击配置并再次提交。成功后,在评分模型模块中检查模型结果。单击 “作业”,选择成功的管道作业,然后右键单击评分模型模块。
图14
根据这些评分指标,我们的模型表现相当出色。接下来,我们将构建实时推理管道。
设计实时推理管道
Azure 中的实时推理管道指的是部署机器学习模型并使用该模型及时对新数据进行预测的一系列步骤。Azure 中的实时推理管道通常与训练管道分开,以模拟其在生产环境中的执行情况。
导航到作业并创建实时推理管道,如图所示。
图15
成功后,你将被重定向到 “设计器 ”部分。请记住,推理管道的全部意义在于模拟模型在接触真实世界/未见数据时的表现。这意味着我们将从管道中删除数据集,以模拟管道接收未见数据的真实场景。值得注意的一点是,我们的管道还不是一个 “应用程序”。我们需要一些媒介将结果整合在一起,完成我们的管道。以下是需要采取的步骤:
图16
图17
创建实时终端
我们已经完成了对现实生活的模仿,我们的模型可以在现实世界中使用了。单击右上角的三个点,然后单击部署。
将其部署为新的实时端点,并选择 Azure 容器实例作为计算类型。
这大约需要 20-30 分钟,所以你可能需要耐心等待。
图19
一旦部署状态健康,就可以在任何地方部署模型。Azure 提供了 Python 或 R 代码片段等选项,你可以将其集成到应用程序中并使用模型,如图 19 所示。