Rapidminer:管理数据连接、加快部署和改进协作
2019年06月17日 由 董灵灵 发表
717820
0
你可能会遇到与管理数据源连接相关的一些问题。如果在将流程转移到生产过程中花费了大量时间来替换连接,在团队中进行协作时遇到困难,或者只是简单地发现当前功能集过于严格,这篇文章可能会对你有所帮助。
在9.3版本中,我们介绍了一种管理数据连接的新方法。它允许你通过服务器轻松安全地共享连接,将进程从一个服务器移动到另一个服务器,并大规模管理组织的连接。这篇文章将说明为什么以及如何使用这个新功能。
新架构的优势
安全地共享连接:与同事协作可能非常棘手,特别是当你开始一个项目或新成员加入团队时。你希望确保她可以访问所有必需的数据源并尽快提高工作效率。到目前为止,这需要手动分配连接配置或使用全局凭证。
从9.3版本开始,我们建议使用服务器来分发和管理数据连接。设置必要的访问权限和新的Vault服务将提供工具,以安全且可扩展的方式共享连接。
轻松部署流程:RapidMiner 服务器的许多用户更喜欢将数据源及其访问权限分开,以用于其开发和生产环境。这种做法在进行变更时使生产更加稳定具有很大的优势。遗憾的是,使用旧连接体系结构执行此操作可能是一项容易出错的任务,因为需要手动查找和替换已部署进程中的每个连接。
新架构加快了这一过程,使其更加强大。通过在引用连接时定义半绝对路径(例如/ Connections /数据仓库),可以将进程从一个服务器复制并粘贴到另一个服务器,并且它将自动工作,无需人为干预。不需要手动检查每个操作符。Studio将检查打开用于访问数据的适当连接的路径。
如何使用新架构
在服务器上创建连接:新解决方案的多功能性使它成为RapidMiner存储库系统的一部分。与其他存储库项一样,可以授予或撤消查看,编辑,执行的权限,并且可以将连接拖入流程画布。要创建连接,只需在顶部菜单栏或本地或服务器存储库的右键菜单中按创建连接。
输入必要的信息,例如连接类型(数据库,S3,Azure等),连接的名称和位置,以及添加说明或标记以便更好地进行管理。
选择数据库类型将预先填充连接的通用属性,因此需要输入的内容只有用户凭据,主机和数据库。此时,你已准备好在服务器或Studio上的进程中使用数据库连接,但是新创建的连接将为每个服务器用户提供刚刚设置的所有参数。
安全地存储用户级值
在使用个人凭证控制数据访问权限的情况下,在连接配置中存储值可能是一个安全问题。不要输入凭据,而是将它们设置为注入参数,并将服务器标记为这些值的预期来源。此设置确定Studio将联系哪些源以检索初始化连接所需的信息。
保存设置后,RapidMiner服务器中的Vault服务需要用户值。在此示例中,我们使用用户名和密码作为需要安全存储的参数,但可以从Vault中标记和设置任何其他参数。
RapidMiner Vault是最近推出的RapidMiner服务器服务,用于存储只能由用户访问的值。每个服务器都有自己的Vault服务,在服务器之间无法进行继承或复制。
最后一步,访问服务器页面,在Repository / Connections中按名称查找连接。你可以轻松地发现缺少值的配置,因为它们标有警告标志。列表中的每个项目都是Studio中相关远程存储库中连接的唯一表示形式。显示详细信息将打开配置。使用已注入的值添加必要的详细信息。
保存这些值将完成创建过程。使用此配置,其他任何尝试使用该连接的人都必须访问服务器并添加他们自己的个人值。
在环境之间自由移动进程(服务器)
使用Vault Service的另一个好处是它可以改进流程部署。由于Vault本身对于每个服务器是唯一的,因此连接可以根据环境接收不同的值。一个特定示例可以是在开发服务器上处理进程时使用具有写访问权限的用户的凭据,但在生产中使用只读权限。这可以通过2个服务器,相:同的相对路径和连接名称轻松实现。复制粘贴过程是将其移入并在不同环境中运行所需的唯一操作。
总结
总而言之,管理数据连接的新方法将允许你通过服务器安全地创建连接,并加快RapidMiner流程部署。我们鼓励所有用户以这种新引入的方式开始管理他们的连接。它将使团队更高效,并创建一个更有组织的存储库,在进程和连接之间具有明确的依赖关系。
即将发布的版本将包括对该功能的进一步改进,包括半自动迁移工具,即使在流程中也可以用新的连接替换旧连接。在此之前,旧版本仍然可以使用,创建和编辑。