
CIO
Peter
Peter,德资知名汽车零部件制造企业大中华区CIO,手下员工几十人。
以德企人特有的严谨细腻,坚持对所有技术细节的追求。
技术宅 小D 小D,技术宅一枚,好研究,喜欢跟客户聊最热、最火的前沿技术。 作为小D 的客户,Peter的“完美主义”,常常让他哭笑不得。 这不,Peter的电话又来了…… 今天,Peter来电的目的是就公司最近准备上马的AI项目,跟小D咨询基础架构方面的解决方案。 谈话一如既往的简单直接,Peter一上来就表明了来意—— Peter的公司计划实施图像识别项目,对产线上高速摄影机拍摄下来的海量产品图片进行分析。期望基于先进的AI技术实现自动识别残次品,并提高良品率,甚至针对突发产品质量问题进行智能的应急反应,从而实现智能的产品质量管理。 Peter是项目组成员之一,负责其中的基础架构部分。所以,他直截了当地抛出了一串的问题……
>>> The First <<< 问 关于AI图像识别项目基础架构方面,有什么好的建议吗? 答 一个AI项目一般包括三个关键部分——算法、算力和足够的数据。基础架构可解决算力方面的问题,在算法和数据方面贵公司是否已经做好了充分的准备? >>> The Second <<< 问 我们产线上安装了多个高速摄影机,每天都有成千上万张采集图片,这些会作为我们深度学习训练、推理的主要数据来源。算法方面由项目组其他同事负责,我今天主要想了解的是,在算力方面我们能做哪些方面的优化。听说采用GPU加速可以大幅提高深度学习计算能力? 答 是的,深度学习技术飞速发展很大程度上受益于GPU加速的应用。之前采用多个CPU计算一个结果,经常要数天甚至数周,而GPU辅助加速可以把这个计算周期缩短到数小时。 CPU和GPU各有所长。如果把CPU比作一个高深的数学系老教授——可以做复杂的算术运算,GPU就相当于一大群(数千个)小学生——做加减乘除。如果让他们分别完成1万道小学算术题,速度上老教授肯定干不过数千个小学生。在深度学习场景中,通常需要计算的都是海量的小学算术题。 图片点击放大查看 >>> The Third <<< 问 有道理,这个GPU怎么配比较好呢?我听说有可以配置8GPU的服务器? 答 GPU是好东西,不过单个节点内部GPU数量是不是越多越好呢? 在GPU服务器市场,当前主流设备形态包括双卡服务器、3卡服务器、4卡服务器、8卡服务器……到底怎么选比较好呢?要想回答这个问题其实也不难,无非从两个方面入手: 1、硬件架构设计层面考虑; 2、软件设计层面需求考虑。 从硬件架构层面来说,首先得考虑异构的CPU/GPU以及多个GPU/GPU之间如何互联。当前CPU/GPU主要通过PCIe/NVLINK两种方式连接。而业界主流X86体系则采用的是GPU/GPU间通过NVLINK互联,CPU/GPU之间仍然通过PCIe接口交互。当前最新的Intel Xeon Skylake CPU微架构中,每个CPU内置48个PCIe Lane。假如不考虑其它系统总线开销的话,能够提供用于连接GPU的带宽是3*X16 Lane(每个GPU卡需要X16 Lane),考虑CPU/GPU之间做无阻塞通讯,最多也只能支持1:3的配比(1:2才能真正支持无阻塞)。另外从NVLINK互联框架看,超过4个GPU之间做互联的话,也无法保证所有GPU节点全连接交互。 图片点击放大查看 目前主流的深度学习框架均利用GPU性能上的优势,把大量计算任务卸载到GPU上做处理。但是,计算中涉及大量的矩阵参数交换,仍然需要CPU来协调处理,对CPU性能压力并不小。如果CPU/GPU配比太高,很可能CPU的计算性能以及通路带宽将成为下一个瓶颈。 从软件架构层面来讲,目前主流的深度学习训练很多采用单机训练的方式做。但是,单机Scale Up空间总是有限的。无论单台服务器支持GPU的数目是多少,毕竟是有限的,随着训练数据量的增长、分类模型的复杂度,神经网络训练需要的计算性能不断提高,最终还是会走上多机多卡的Scale Out扩展集群训练方式。计算技术不断革新、闪存推动、RDMA技术/低延迟网络等等,也为集群训练扫清了各种障碍。包括Google、Facebook、Nvidia、Mellanox、Dell等众多公司,都已经投入到集群GPU训练方案的研究之中。目前,Facebook已经完成64*GPU集群加速测试,Google已经完成16/32/50/100*GPU集群加速测试。Facebook 64卡GPU集群训练,性能加速57倍;Google在32卡GPU集群训练,性能极速30.6倍。越来越多的主流深度学习框架,已提供对多机多卡分布式训练的支持包括TensorFlow、Caffe2、CNTK、MXNet、DL4j、PaddlePaddle(主流框架,目前大概只有Caffe.不支持)。 图片点击放大查看 上图是Dell EMC US HPC Lab基于8台C4140服务器(支持1:1~1:4的CPU/GPU配比),每台配置4块V100,32卡集群做图像分类深度学习加速训练。节点间互联基于Mellanox EDR交换网络。在MXNet框架下实测,随着节点数的增加,性能得到准线性的提升(基本媲美单机ScaleUp)。 >>> The Fourth <<< 问 听起来挺有道理的,贵司支持的GPU服务器型号都有哪些呢? 答 先秀张图给您看下▼ 图片点击放大查看 针对AI深度学习领域,我们有一整套的参考架构体系,您可以根据项目阶段、规模选择所需的配置。初始阶段,可以选择单节点的R740/T640做技术验证。中后期大规模应用阶段,可考虑用专为GPU加速设计的C4140组建高性能群集。一个IT基础架构是否合理,无非考虑两点,其一是满足当前应用需求,其二是能否顺应技术发展趋势,做到未来扩展方面的前瞻性。选择单机多卡,多机多卡方式都不是绝对的。还要结合企业自身实际情况,综合考虑各个因素。满足当前需求很容易做到,而企业IT决策者通常会更关注于未来发展方向把握上,以及为未来可能的变化预留足够的灵活空间。 >>> The Last <<< 最后,小D还不忘借机调侃了一下严谨的Peter,随即接下去和Peter一起研究那些成千上万张图片如何存放的问题……
如果您对当前页面内容感兴趣,
可填写“项目咨询单”,
进行专业咨询及帮助。
允许用户在我们的网站上移动以及提供访问诸如您的个人资料和购买、登录凭据以及网站其他区域等功能的访问权限。
用于了解我们网站上的用户行为,并展示与您的兴趣更相关的广告。
通过收集和报告信息,帮助我们了解访问者如何与我们的网站互动。
* 点击确认按钮或关闭Cookie弹窗代表您已同意以上内容。
8G 1TB SAS H330 DVDRW 495W
恭喜您,秒杀成功!
后续工作人员会与您进行联系
抱歉,您没有抢到!
您还可以参与其他产品的秒杀活动哦
请输入兑换码
请输入企业邮箱
请输入手机号
订阅成功
我们将每月通过邮箱发送资料报告发给您
请输入手机号
请输入验证码