索尼刷新纪录,训练ImageNet仅用224秒,准确率达75%
2018年11月15日 由 浅浅 发表
196320
0
索尼的研究人员宣布了训练ImageNet / ResNet 50的新纪录,通过使用2100个NVIDIA Tesla V100 Tensor Core GPU,仅用224秒(3分44秒)就可以获得75%的准确率,对于ResNet-50来说这是训练时间是最短的。
该团队还通过1088个NVIDIA Tesla V100 Tensor Core GPU实现了超过90%的GPU缩放效率。
使用ImageNet / ResNet-50的训练时间和验证准确性
索尼团队在论文中表示,“随着深度学习的数据集和深度神经网络(DNN)模型大小增加,训练模型所需的时间也在增加。”
为了实现这一记录,研究人员解决了大规模分布式训练的两个主要问题:大型的小批量训练的不稳定性和同步通信开销。
“我们采用批量控制技术来解决大型的小批量不稳定问题,”研究人员说,“我们还开发了一种2D-Torus all-reducing方案,以便有效地在GPU之间交换梯度。”
2D-Torus作为有效的通讯拓扑结构,减少了集体操作的通讯开销。
团队指出,“我们使用神经网络库(NNL)及其CUDA扩展作为DNN训练框架,我们还使用了基于NNL 1.0.0版本和CUDA 9.0版本的开发分支结构,cuDNN7.3.1版本在GPU中训练DNN。”
索尼表示,“我们使用NCCL版本2.3.5和OpenMPI版本2.1.3作为通讯库。2D-Torus all-reduce用NCCL2实现。上述软件封装在Singularity容器中。我们使用Singularity 2.5.2版本来运行分布式DNN训练。”
论文:nnabla.org/paper/imagenet_in_224sec.pdf