Alpha的新功能:监控训练融合
2019年05月30日 由 平安 发表
197558
0
近日,SigOpt在alpha测试中发布了一个新的特性:训练监视器。此功能旨在更好地增强我们的神经网络开发人员的能力。通过在整个神经网络培训过程中存储信息,我们使用户能够:
- 通过Web和API监控进度,
- 在神经网络收敛时可视化度量曲线,
- 当检测到收敛时,便于提前停止。
神经网络已被证明在许多应用中是有效的,包括自然语言处理、图像处理和生物学。数据的激增和对高性能计算资源的更容易访问使得神经网络更加广泛地应用,这反过来又使神经网络对其使用产生了更大的兴趣。
所有这些神经网络成功案例的一个重要组成部分是超参数的适当选择。选择不当的辍学比例、学习率或每层节点数会使神经网络走向平庸。Sigopt用户已经知道这一点,多年来他们一直在使用我们的核心优化引擎以及高级算法功能(如多指标)来培训神经网络,以有效地构建高性能的深度学习模型。
在标准设置中,与SIGOPT的唯一通信将在建议创建和观察创建时进行(接收建议的参数分配以进行培训,并报告它们的执行情况)。使用训练监视器,创建训练运行以存储与神经网络训练相关的数据。
为了报告数据,我们创建了新的检查点对象,这些对象以间歇的间隔报告神经网络训练的进度。检查点可以在任何需要的时间间隔发生:每一个时期,每4个时期,每11分钟,每37批,或者其他什么。
下图描述了标准工作流。
下一个图形显示通过培训监视器启用的新工作流。
训练运行和检查点通过更好地支持神经网络训练的迭代行为,为Sigopt提供了新的机会。这在一些特定的功能中很明显:
- Sigopt网站为个人训练跑步和高绩效训练跑步提供了新的可视化效果。
- 用户可以定义自己的训练融合感,Sigopt将在训练期间监控并报告。
- Sigopt的优化引擎可以内部化所有的检查点,以更好地了解训练进度和收敛行为。
访问实验87436查看Sigopt中的训练监视器实验。下面我们展示了培训监控实验的建议模式和分析页面的示例。这个建议在最多可能的20个检查点中只完成了10个检查点。
分析页面中的新图形比较了前5个正在执行的培训运行。