创建深度学习数据平台时,你需要考虑的五个因素
2018年03月13日 由 nanan 发表
920253
0
随着AI应用程序和深度学习算法的成熟,许多组织正在制定计划,以弄清楚它们将如何从数据中提取差异化竞争优势。
事实上,在过去的5-10年里,许多公司都在收集数据,因为他们知道有一天他们可能需要这些数据,但却没有相关的计划。我们现在正处于广泛采用深度学习的尖端,以最终将所有这些数据货币化。
不管数据是如何获得的,它都是这些新兴程序的基础——因此,应该在一开始就仔细评估数据平台,以确保即使基于现有体系结构,未来的计划也会取得成功。这需要前瞻性思考——在当前的处理需求和数据源可能只是生产实例的一小部分的情况下,如何在生产中部署深度学习程序。如果现在不制定这些计划,那么当预计重大突破时,企业将面临落后于竞争对手的风险。在部署时,必须重新架构整个深度学习基础设施,这将使公司远远落后于未来计划的竞争对手。
为了确保最终的成功,在创建和开发深度学习数据平台时,企业和研究组织应该考虑五个关键领域,以确保更好的答案、更多的价值和更快的扩展能力:
1.浸透你的AI平台
在GPU上启用深度学习计算系统的前期投资可能被认为是理所当然的,但后备存储系统对于每天最大化答案至关重要。正确的存储平台将确保GPU周期不会因应用程序等待存储响应而保持空闲状态。对存储系统的影响根据应用程序行为而有很大不同:从数据仓库区域快速填充时,启用GPU的内存数据库的启动时间较短。GPU加速分析需要大量线程数——每个线程都可以低延迟访问小块数据。基于图像的深度学习分类,对象检测和分割可以从高流量带宽,随机访问以及大多数情况下的快速内存映射调用中受益。
典型的AI计算系统内置4到8个GPU以及高端网络,通常具有多个Infiniband端口,通过RDMA(远程直接内存访问)I / O协议,可实现数百Gbps(千兆位每秒)的低延迟带宽。这意味着任何正在考虑的存储系统都应该利用支持RDMA的网络,如Infiniband,这些网络不需要CPU,高速缓存或上下文切换来完成工作,从而极大地减少了延迟并实现了更快的消息传输速率并消除了应用程序等待时间。
2.构建大规模的摄取能力,以应对将来数据的未来扩展
将数据收集到一个中央存储库将成为创建深度学习模型的关键因素,而深度学习模型一旦准备好就可以运行使用。将数据收集到这个存储库中,需要快速地从各种来源获取信息。对于存储系统来说,最重要的是编写性能,并大规模地处理来自分布式数据源的大型并发流。富有成效的AI实现不仅是获取数据洞察力的手段,而且还可以收集越来越多的数据,以帮助不断改善的任何模型。选择的存储系统必须具有高度平衡的I/O,执行速度与读取速度一样快。为了满足所有的数据采集需求,开发了用于增强和改进采集的数据源,同时提供了机器学习计算平台。
3.灵活且快速地访问数据
在涉及AI存储平台时,灵活性涵盖了多种因素。最后,通过神经网络应用程序,通过摄取、转换、拆分和其他方式操作大型数据集,同样也可以导入到深度学习中。不管选择何种数据格式,对于进入AI的组织来说,灵活性也意味着良好的性能。考虑到存储平台应该支持强大的内存映射文件性能和快速的小文件访问,在各种结构化和非结构化数据之间移动时非常有用。
随着支持人工智能的数据中心从最初的原型设计和测试转向生产和规模,灵活的数据平台应该能够在多个领域中的任何一个领域进行扩展:性能,容量,摄取能力,Flash-HDD比率和数据科学家的响应能力。这种灵活性还意味着在不中断的情况下扩展名称空间,消除数据副本和增长阶段的复杂性。
4.从小事做起,但在规模上做到简单而经济
可伸缩性不仅可测量性能,还可用于可管理性和经济性。成功的AI程序应该以少量TB(兆兆字节)的数据为起点,但不需要对环境进行架构,就可以轻松地扩展到多个PB (千万亿字节,属于较高级的存储单位)。
经济性扩展的一种方法是根据工作负载优化存储介质的使用。虽然Flash应该一直是AI训练数据的媒体,但在Flash中存储数百个TB或PB数据可能变得不可行,但许多替代方案都无法达到规模。混合模型经常受到数据管理和数据移动的限制,并且松散耦合的体系结构将全闪存阵列与独立的基于HDD的数据湖相结合,为有效地管理热数据提供了复杂的环境。
AI平台架构师应该考虑为AI设计的紧密集成的横向扩展混合架构。从flash部署,然后根据需求选择缩放策略; 或者仅使用闪存进行缩放,或者与深度集成的HDD池结合使用。在这里,集成和数据移动技术是关键,确保为用户选择最透明的解决方案。
5.与了解整个环境的供应商合作,而不仅仅是存储
向AI应用提供性能至关重要,而不是存储能够以多快的速度推出数据。选择的存储平台供应商必须认识到,集成和支持服务跨越了整个环境,不仅仅是存储,而是更快地交付结果。考虑到AI计算平台的强大处理能力——每个系统都类似于迷你超级计算机,供应商必须提供高性能的解决方案,以满足最苛刻的数据规模工作流程,并随着AI需求的发展与你紧密合作。