新闻中心
网站首页   学会概况   学会规章   新闻中心   学术交流
社会服务   科学普及  计算机大赛   会员中心   联系方式
一键拨号
一键留言
会员中心
通知公告
青年学者学术沙龙《高速分布式神经网络训练: 分分钟训练ImageNet》
2019-05-05

南京大学计算机软件新技术国家重点实验室 

摘 要:

加速神经网络意义重大。最直接的方法就是利用集群或分布式系统强大的计算能力去加速。当前在大规模集群上并行处理的方式大概有两种:模型并行(Model Parallelism)和数据并行(Data Parallelism)。由于模型并行在并行度和并行效率上有限,当前人们普遍采用数据并行的方式。在数据并行方法中,批量数(batch size)对并行与分布式算法的效率起着决定性作用。例如,对于ImageNet数据集而言,批量数为32时,算法只能充分利用一块GPU卡。而批量数为8192时,算法却可以充分利用256块GPU卡。然后,当批量数过大时,优化算法的收敛性和稳定性都大大降低,导致最终算法收敛的精度无法达到预期。我们在最近的研究中提出了LARS算法。通过使用LARS算法,我们能把批量数扩大到32768,这样能充分利用1024张P100 GPU卡。这种情况下,我们只需十几分钟即可完成ImageNet的训练。之前ImageNet的训练往往需要几天甚至几周。我们的算法已被开源在Intel Caffe, NVIDIA Caffe, Caffe2 (PyTorch),以及谷歌内部的TensorFlow。腾讯公司在最新的产品中采用了我们的算法,在2048个P40 GPU上仅用4分钟就完成了ImageNet的训练。 

报告人简介:

尤洋是一位西贝尔学者。他目前是加州大学伯克利分校计算机系的博士生,他的导师是美国科学院与工程院院士,ACM/IEEE fellow,伯克利计算机系主任,以及首批中关村海外顾问James Demmel教授。尤洋的研究兴趣包括高性能计算,并行算法,以及机器学习。他当前的研究重点是大规模深度学习训练算法的分布式优化。他曾创造ImageNet训练速度的世界纪录,并被ScienceDaily,The Next Web,i-programmer等几十家媒体广泛报道。尤洋近三年以第一作者身份在NIPS,Supercomputing,IPDPS,ICS等国际重要会议或期刊上发表论文十余篇。他曾以第一作者身份获得了国际并行于分布式处理大会(IPDPS)的最佳论文(0.8%获奖率)和国际并行处理大会(ICPP)的最佳论文(0.3%获奖率)。尤洋曾获清华大学优秀毕业生,北京市优秀毕业生,国家奖学金,以及清华大学计算机系额最高的西贝尔奖学金。他还在2017年获得美国计算机协会(ACM)唯一颁给在读博士生的乔治·迈克尔高性能计算奖学金。尤洋曾在IBM沃森研究中心,英伟达总部,微软总部,以及谷歌总部实习。更多信息请查看他的个人主页(https://www.cs.berkeley.edu/~youyang)。

时间:5月9日  14:00-14:40

地点:计算机科学技术楼221室


上一篇:学术报告Transparent Computing Systems Enabled by Program Analysis
下一篇:青年学者学术沙龙Causal Inference and Stable Learning
版权所有:江苏省计算机学会
苏ICP备14049275号-1