Databricks推出机器学习的开源多云框架,简化分布式深度学习和数据工程
2018年06月06日 由 浅浅 发表
145514
0
Databricks研究调查的初步结果显示,96%的组织认为数据相关的挑战是将AI项目移至生产时最常见的障碍。数据是人工智能的关键,但数据和人工智能则处在孤岛中。Databricks是统一分析领域的领导者,由Apache Spark的原创者创建,利用统一分析平台解决了这一AI难题。今天在旧金山召开的Spark + AI峰会上,由4,000位数据科学家,工程师和分析领导者组成的年度盛会,为企业降低AI创新障碍创造了新的能力。这些新功能统一了数据和AI团队和技术:用于开发端到端机器学习工作流的MLflow,用于ML的Databricks Runtime以简化分布式机器学习,用Databricks Delta以提高数据的可靠性和性能。
“为了从人工智能中获得价值,企业依赖于他们现有的数据以及在海量数据集上迭代进行机器学习的能力。Databricks的联合创始人兼首席执行官Ali Ghodsi表示:“今天的数据工程师和数据科学家们使用众多断开连接的工具来完成这一任务,包括机器学习框架。组织和技术之间的矛盾减缓了项目速度,成为AI项目高度迭代性的障碍。统一分析是增加数据工程师和数据科学家之间的协作,统一数据处理和AI技术的方法。”
MLflow:通过端到端工作流提高机器学习的效率和有效性
数据对训练机器学习和投入生产至关重要。但是,在生产中使用机器学习很困难,因为开发过程是临时的,缺乏重现结果的工具,跟踪实验和管理模型。为了解决这个问题,Databricks推出了MLflow,一种开源的跨云框架,可以极大简化机器学习工作流程。借助MLflow,企业可以将其代码打包运行,且可重现,并执行和比较数百个并行实验,利用硬件或软件平台,将模型部署到各种服务平台上进行生产。MLflow集成了Apache Spark,SciKit-Learn,TensorFlow和其他开源机器学习框架。
“在构建Web或移动应用程序时,大家会知道如何做,因为我们已经构建了工具包,工作流和参考架构。但是没有机器学习的框架,它迫使组织将解决方案拼凑在一起,并确保高度专业化的技能来实现人工智能,”Databricks联合创始人兼首席技术官Matei Zaharia说。“MLflow是一个端到端的多云框架,用可重复的方式开发机器学习应用程序,同时灵活地在多个云环境中可靠地在生产环境中部署这些应用程序。”
Databricks Runtime for ML:简化和启用分布式深度学习
通过使用自然语言处理,图像分类和对象检测,深度学习越来越受欢迎。因此,数据量的增加使组织能够建立更好的模型,而数据复杂性则需要增加训练时间。这种冲突导致组织采用分布式深度学习,利用Tensorflow,Keras和Horovod等各种框架以及管理分布式计算的复杂性。
Databricks Runtime for ML通过与最流行的机器学习框架(如Tensorflow,Keras,xgboost和scikit-learn)紧密集成预配置环境消除了这种复杂性。Databricks还通过引入对AWS和Microsoft Azure的GPU支持来解决扩展深度学习的需求。数据科学家现在可以将数据集提供给模型,进行评估,并在统一的引擎上部署尖端的AI模型。
Databricks Delta:简化数据工程
根据Databricks委托进行的研究,组织需要7个多月才能将AI项目完成,其中有50%的时间用于数据准备。目前,企业使用各种系统构建其大数据架构,这增加了成本和运营复杂性。数据工程师正在努力简化数据管理并为数据科学家提供清晰,高性能的数据。
作为Databricks统一分析平台的关键组成部分,Delta通过提供大规模高性能,通过事务完整性实现数据可靠性以及流式传输系统的低延迟,扩展Apache Spark以简化数据工程。利用Delta,组织不再需要在存储系统属性之间进行权衡,也不需要花费资源在系统间移动数据。现在,数百个应用程序可以可靠地上传,并查询和更新大规模,低成本的数据,最终使数据集可以用于机器学习。