RapidMiner:在生产中部署模型的问题
2019年04月29日 由 文灬森特 发表
644578
0
机器学习是现代分析中最重要的价值驱动因素之一。除了谷歌在Go和星际争霸中获胜的热门新闻之外,我们的日常生活中已经有大量的用例。
比较企业中机器学习的价值时,您会发现商业智能应用程序存在重大差异。BI专注于人们对业务和衍生行为的理解,而机器学习专注于机器理解。机器学习 的价值不仅来自最初的见解,而是来自这些的持续部署。要获得分析计划的成果,您需要将模型投入生产。这样做你自然会遇到一些问题。在本文中,我们将讨论最重要的内容以及Talend和RapidMiner 的组合如何帮助克服这些问题。
从静态到动态
模型拟合通常在静态数据集上完成。数据被捕获一次并放入一个很好的格式,如SQL数据库或原始excel导出。然后在RapidMiner中使用这些表来生成模型。当我们将模型投入生产时,我们不再拥有静态数据。我们正在进入一个流动的数据流动世界,需要处理流。
数据是否可用?
我们面临的第一个问题是我们是否能够一致地访问数据?令我惊讶的是,科学家正在研究的数据提取的频率是以手动的方式创建的。最极端的情况是,有一个USB棒在校园内运行以获取数据。这可能是生成原型的好处,但不是在部署中不可行。在部署中,您需要确保以编程和可信方式提供所有数据。
通过将RapidMiner集成到Talend Pipelines中,您可以使用现有的数据合并流程,并在其中本机使用机器学习生成的洞察。
时间问题
访问数据是一回事,但您还需要在合适的时间获取数据。我目前正在研究预测性维护问题,我们希望在近乎实时的时间内(<1分钟)采取行动。数据库每6小时更新一次。这使得无法将此数据集用于应用程序。
在属性的测量是预测的关键的情况下可能出现类似的问题。如果测量本身需要数小时或数天 - 例如繁殖细菌时。如果在预测期间数据不可用,则不允许使用它。数据科学家可以解决这个棘手的问题,例如首先预测测量,但他们需要意识到这个问题。拥有像RapidMiner和Talend这样深度集成的平台是成功的关键。这些平台允许整个团队 - 业务专家,数据工程师和数据科学家相互合作,了解其他人的需求和想法。拥有一个易于访问的软件包,如RM Studio或Talend Data Integration Studio是必不可少的。
最好的质量
拥有数据是数据科学的重要一步,同时数据需要保持一致和高质量。数据科学家习惯于处理干扰数据。尽管我们付出了很多努力,但我们始终需要应对这种滋扰。我的一位同事最近这样说:
“没有清晰的数据,这只是另一个噪音源。”
数据中的许多肮脏在许多分析场景中都很常见,而不仅仅是机器学习。
干扰作为一项特征
假设我们的CRM系统中每个客户都有一个条目,而只有五个。在这种情况下,一个常见的事情是做主数据管理,以找到黄金标准或合并标准。在许多情况下,这对于机器学习是一件有用的事情,每个人都喜欢一个唯一的标识符。另一方面,知道有多个记录可能是有价值的。如果有人通过各种渠道联系我们面向客户的团队,这可能表明有什么问题。如果我们对客户满意度进行评分,我们可能会怀疑不同记录的数量是他或她试图与我们沟通的努力程度的代表。
这说明了一些重要的事情:数据科学家有时使用不同的数据。我们需要比其他使用它的人更深入一步,Talend和RapidMiner的结合使我们能够做到这一点。
模型部署的一致性
谈到数据质量,我们还需要了解可能打破我们模型的小事。在将模型部署到现实生活中时,我们假设我们应用模型的数据代表了我们在模型上学习的数据。我最近一直致力于一个项目,我们用这个人的头衔作为指标。我们的培训课程中有两个类别,先生和女士,出于某种原因,我们的部署管道在标题中具有dr.的价值。这意味着该算法无法对此项目进行评分并引发错误。在良好的数据管道中,您将尽早处理此类问题。
因此,我们需要确保拥有经过验证的可靠管道来完成这项工作。如果发生不一致,我们需要能够追踪源系统的变化。Talend的Data Lineage组件对于防止这种情况发生至关重要,集成解决方案是一个显而易见的选择。
结论
在本文中,我们讨论了为什么良好的数据管道对于机器学习项目的成功而言是典型的。我们介绍了构建时遇到的常见问题,最重要的是在生产中部署机器学习模型。
重要的是要理解数据工程和数据科学是齐头并进的,而不是两个独立的主题,可以由团队和技术分开。市场领导者Talend和RapidMiner之间的合作和整合使您可以在两个领域中使用最好的工具来最大限度地减少摩擦。