研究人员开发拖放数据分析工具:北极星
2019年06月28日 由 yining 发表
142764
0
在《钢铁侠》的电影中,托尼·斯塔克使用全息电脑将三维数据投射到稀薄的空气中,用手操纵这些数据,并找到解决超级英雄问题的方法。同样,麻省理工学院和布朗大学的研究人员现在已经开发出一个交互式数据分析系统,该系统可以在触摸屏上运行,让每个人都可以像是天才、亿万富翁、花花公子慈善家一样来处理现实世界中的问题。
多年来,研究人员一直在开发一个名为Northstar的交互式数据科学系统,该系统在云中运行,但具有支持任何触摸屏设备的界面,包括智能手机和大型交互式白板。用户输入系统数据集,并使用手指或数码笔在简洁方便的界面上操作、组合和提取功能。
在ACM SIGMOD会议上发表的一篇论文中,研究人员详细介绍了Northstar的一个新组件,称为“虚拟数据科学家”的VDS,它可以立即生成机器学习模型,在其数据集中运行预测任务。例如,医生可以使用该系统来帮助预测哪些患者更可能患有某些疾病,而企业主可能希望预测销售额。如果使用交互式白板,每个人都可以实时协作。
其目的是通过使复杂的分析变得容易、快速和准确来实现数据科学的易用。
“即使是一个不懂数据科学的咖啡店老板,也应该能够预测他们未来几周的销量,从而计算出要买多少咖啡,”合著者、长期担任北极星项目负责人的TimKraska说,他是麻省理工学院计算机科学和人工智能实验室的电气工程和计算机科学副教授和新数据系统和人工智能实验室(DSAIL)的创始联席主任。”在拥有数据科学家的公司里,数据科学家和非专家之间有很多的交流,所以我们也可以把他们带到一个房间一起进行分析。”
VDS是基于一种日益流行的人工智能技术,称为自动机器学习(automl),它让数据科学知识有限的人训练人工智能模型,以根据其数据集进行预测。目前,该工具在DARPAD3M自动机器学习竞赛中处于领先地位。
用于分析的“无边界画布”
这项新工作建立在麻省理工学院和布朗大学的研究人员多年来在北极星的合作基础上。四年多以来,研究人员发表了大量论文,详细介绍了北极星的各个组成部分,包括交互界面、多平台操作、加速结果和用户行为研究。
北极星以一个空白的白色界面开始。用户将数据集上载到系统中,该系统显示在左侧的“数据集”框中。任何数据标签都将自动填充下面单独的“属性”框。还有一个“操作符”框,其中包含各种算法以及新的automl工具。所有数据都存储在云中并进行分析。
研究人员喜欢在包含重症监护病房患者信息的公共数据集上演示这个系统。以医学研究人员为例,他们想检查某些疾病在某些年龄段的发生情况。它们将模式检查算法拖放到界面的中间,该算法最初显示为一个空白框。作为输入,它们进入标有“血液”、“传染性”和“代谢”的框中疾病特征。数据集中这些疾病的百分比显示在框中。然后,他们将“年龄”功能拖到界面中,该界面显示患者年龄分布的条形图。在两个盒子之间画一条线把它们连在一起。通过圈出年龄范围,该算法可以立即计算出年龄范围内三种疾病的共同发生率。
Zgraggen,他是北极星互动界面的关键发明者。他说,“这就像一块巨大的,无边界的画布,你可以在那里展示你想要的一切,然后,您可以将事物链接在一起,以创建关于您的数据的更复杂的问题。”
近似automl
有了VDS,用户现在还可以通过让模型定制适合他们的任务来对数据运行预测分析,例如数据预测、图像分类或分析复杂的图形结构。
利用上面的例子,医学研究人员说,他们希望根据数据集中的所有特征来预测哪些患者可能患有血液病。它们从算法列表中拖放“automl”。它首先会产生一个空白的框,但是有一个“目标”标签,在这个标签下他们会删除“血”功能。系统将自动找到性能最佳的机器学习方法,以标签形式显示,并不断更新准确率百分比。用户可以随时停止该过程,优化搜索,并检查每个模型的错误率、结构、计算和其他内容。
据研究人员称,VDS是迄今为止最快的交互式automl工具,部分原因在于其定制的“估算引擎”。该引擎位于界面和云存储之间。引擎利用自动创建数据集的几个代表性样本,这些样本可以在几秒钟内逐步处理,以产生高质量的结果。
“和我的合作者一起,花了两年时间设计了虚拟数据系统来模仿数据科学家的想法,这意味着它可以根据各种编码规则,立即确定应该或不应该在某些任务上运行的模型和预处理步骤。它首先从大量可能的机器学习渠道中进行选择,并在样本集上运行模拟。在这样做时,它会记住结果并优化其选择。在提供快速近似结果后,系统在后端对结果进行优化。但最终的数字通常非常接近第一个近似值。
“对于使用预测器,您不希望等待四个小时来获得第一个结果。你想知道发生了什么,如果你发现了错误,你可以立即纠正它。这在其他系统中通常是不可能的,”克拉斯卡说。事实上,研究人员之前的用户研究表明,一旦你延迟给用户结果,他们就会开始失去耐心。
研究人员在300个真实数据集上评估了这个工具。与其他最先进的汽车系统相比,VDS的近似值同样准确,但生成时间仅为几秒钟,比其他工具快得多,后者在几分钟到几小时内运行。
接下来,研究人员希望增加一个功能,提醒用户潜在的数据偏差或错误。例如,为了保护患者隐私,有时研究人员会将医疗数据集标记为0岁(如果他们不知道年龄)和200岁(如果患者超过95岁)的患者。但新手可能不会认识到这样的错误,这可能会误导他们的分析。
克拉斯卡说:“如果你是一个新用户,你可能会得到一些认为它们很棒的结果。”但我们必须警告人们,实际上,数据集中可能存在一些异常值,这些异常值可能表示存在问题。”