索尼刷新纪录,训练ImageNet仅用224秒,准确率达75%

2018年11月15日 由 浅浅 发表 196275 0
索尼刷新纪录,训练ImageNet仅用224秒,准确率达75%索尼的研究人员宣布了训练ImageNet / ResNet 50的新纪录,通过使用2100个NVIDIA Tesla V100 Tensor Core GPU,仅用224秒(3分44秒)就可以获得75%的准确率,对于ResNet-50来说这是训练时间是最短的。

该团队还通过1088个NVIDIA Tesla V100 Tensor Core GPU实现了超过90%的GPU缩放效率。

索尼刷新纪录,训练ImageNet仅用224秒,准确率达75%

使用ImageNet / ResNet-50的训练时间和验证准确性


索尼团队在论文中表示,“随着深度学习的数据集和深度神经网络(DNN)模型大小增加,训练模型所需的时间也在增加。”

索尼刷新纪录,训练ImageNet仅用224秒,准确率达75%

为了实现这一记录,研究人员解决了大规模分布式训练的两个主要问题:大型的小批量训练的不稳定性和同步通信开销。

“我们采用批量控制技术来解决大型的小批量不稳定问题,”研究人员说,“我们还开发了一种2D-Torus all-reducing方案,以便有效地在GPU之间交换梯度。”

2D-Torus作为有效的通讯拓扑结构,减少了集体操作的通讯开销。

团队指出,“我们使用神经网络库(NNL)及其CUDA扩展作为DNN训练框架,我们还使用了基于NNL 1.0.0版本和CUDA 9.0版本的开发分支结构,cuDNN7.3.1版本在GPU中训练DNN。”

索尼表示,“我们使用NCCL版本2.3.5和OpenMPI版本2.1.3作为通讯库。2D-Torus all-reduce用NCCL2实现。上述软件封装在Singularity容器中。我们使用Singularity 2.5.2版本来运行分布式DNN训练。”

论文:nnabla.org/paper/imagenet_in_224sec.pdf
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消