首页
正文
2019/12/21

年入百万数据科学家在线摸鱼?

戴尔官方企采中心

年薪百万数据科学家

上班时间在线摸鱼!?

怎么回事!

请听小编为您分解

▼

近几年

AI行业发展得如火如荼

数据科学家也跟着吃上了“香饽饽”

江湖传言

刚毕业的AI博士起薪50W

2年经验的薪水100W+

貌似一当上数据科学家

分分钟就能实现财富自由

不过隔行如隔山

数据科学家是否

真的像传言那般光鲜亮丽呢?

今天我们有幸采访到了李博士

来看下数据科学家的工作状态吧

离开熟悉的科研机构后,李博士被一家AI初创企业以七位数年薪收入麾下,担任机器视觉部门的数据科学家。

上班第一周,熟悉了新环境和同事后,李博士连上公司分配的GPU服务器,开始一个图像分割模型训练。

启动任务后,李博士没有像人们想象地那样开始在各种机器前忙碌,而是起身接了一杯咖啡,随即悠悠然坐进软椅,转向论文研究工作。

咦?什么情况?数据科学家在线摸鱼?

当然不是!

其实这也是李博士的无奈之举,他痛心疾首地说道:“算力是AI发展的一大阻碍啊!”按照以往经验,在当前CNN模型的复杂度和训练数据量条件下,要3-4天才看得到训练结果,结果出来之前除了等待别无他法。

这不禁让我们联想起90年代之前的大学,同学们先到计算中心排队,然后将自己的应用程序输到机房计算机中,此后要用相当长的时间来等待计算结果。

半个多世纪以来,摩尔定律让计算性能取得了飞跃,现在一台智能手机的计算能力,已经可以赶上80年代的超级计算机了。而今天,对计算力的渴望,我们和半个世纪以前的人们依然没有什么区别。

  AI领域的计算力渴望  

2018年,OpenAI发布了一份关于AI计算能力增长趋势的分析报告,报告显示:自2012年以来,AI训练中所使用的计算力每3.43个月增长一倍,过去6年时间里,这个指标已经增长了30万倍以上——这便是OpenAI针对AI计算领域提出的新摩尔定律。

每当有数据科学家质疑AI计算平台的性能时,从事计算工作的朋友们就会很委屈:没有计算力上做出的成绩,怎么会有这波AI应用的热潮?如果没有吴恩达2011年将GPU应用于谷歌大脑所取得的成功,人工智能的第三次热潮恐怕还要晚几年才能到来。

但是,AI就像是一个正在长身体的小宝宝,天天哭着找妈妈要奶吃。相较传统的机器学习算法,深度学习对计算力的要求更高。

比如,2012年摘得ImageNet图像分类大赛冠军的AlexNet网络,包含8层神经网络,6000万个参数;2015年夺冠的ResNet网络,深度已经达到了152层;另外,一个图像分类模型VGG-16,参数量也达到了1.38亿;而现在有些语言识别模型,参数量已经超过10亿!

为应对AI算力要求,当前国内AI基础架构普遍采用的是Scale-up GPU架构,即在单台服务器上部署4张、8张甚至更多张GPU卡,每个任务使用设备中的全部或者部分资源。这种架构的优点就是实施简单,操作容易。

但是,随着模型复杂度加深、计算力要求提高,单机多卡模式越来越力不从心。另外,一味增加单机GPU密度,也会加大数据中心的供电和散热压力,此时一旦出现服务器问题障,就很可能造成业务故障。

面对种种问题,难道AI算力再上一步发展的空间就没有了吗?

这里,我们还是要相信IT基础架构建设者的智慧。在过去的2019年春天,可以看到国内AI计算领域有了很多不一样的改变:精细化、集群化、多元化——三把“利剑”齐发力,AI计算正朝着人们所期望的高性能、可扩展模式迈进。

  第一把利剑:精细化  

精细化是指不改变现有计算架构,“深挖洞,广积粮”,提高单个芯片计算性能,以达到更高的整体性能。

目前,仅仅依靠提高GPU的浮点计算和显存带宽指标来实现算力提升已经有些困难,大家开始尝试降低AI训练和推理过程中的精度要求。

例如,在T4上提供TensorCore混合精度特性,TensorCore让最耗费计算性能的矩阵乘法在FP16半精度工作,矩阵加法和最终输出结果仍可以在FP32工作。与经典的FP32单精度训练相比,混合精度降低了对带宽与显存容量的需求,使训练性能实现倍增。

同样,在推理领域,Int8或其他低精度推理方式正在被更多数据科学家尝试。深度学习端到端pipeline优化,可以平衡计算、存储IO、网络传输性能,使数据以更快速度流动和计算。

相关机制主要包含框架的多线程、预读机制,NVME SSD小文件IO优化、PCI-Eswitch或NVLink提升参数同步网络性能,以及使用GPU进行图像数据预处理的新技术(DALI)等。

在这方面,戴尔易安信针对AI GPU计算专门设计的服务器C4140(1U机箱支持4块全宽GPU)和DSS 8440(4U机箱支持10块全宽GPU),两个服务器都搭载了2个Intel®Xeon®处理器可扩展系列,集成了很多针对深度学习参数快速同步和小文件IO的硬件优化技术,可以为AI研究提供良好的算力支持。

戴尔易安信DSS 8440

虽然精细化可以让芯片发挥最佳计算性能,不过单节点挖潜毕竟是有上限的,既然云计算、HPC、大数据等Scale-out模式如火如荼,是不是可以让AI计算也插上集群计算的翅膀呢?

答案是肯定的。

  第二把利剑:集群化  

所谓集群化,就是让更多处理器参与到计算加速中,以满足深度学习对算力的需求。

当前主流的深度学习框架,像TensorFlow、PyTorch、MXNet、Caffe2等,均已提供对GPU集群分布式训练的支持。当然,GPU分布式训练比单机训练要复杂,需要端到端设计来保证多机多卡训练的性能。

如果把AI计算集群比作一辆汽车,加速芯片就相当于汽车的发动机,网络如同传统系统,存储好比是汽车的油箱,而调度软件就起着方向盘的作用。

每一个Batch训练中,GPU都需要在极短的时间内完成亿级别参数同步,对网络带宽和延迟要求极高。实践证明,相比传统的TCP/IP网络传输,采用基于RDMA或者RoCE的GPU Direct computing技术,可以大幅有效地提升参数同步的网络传输性能。

IO侧,NLP、机器视觉和语音识别中,需要大量使用KB级小文件进行训练,GPU处理速度又很快,集群环境将数据放到共享文件存储系统中,因而对存储系统小文件IO处理性能有着非常高的要求。

而Lots of small files的文件读写方式,恰恰是众多存储系统性能的“命门”。

依托多年非结构化数据存储的经验积累,戴尔易安信针对深度学习小文件性能优化,提供Isilon Scale-out NAS、Lustre并行文件系统、基于AI/HPC环境优化的NFS存储系统(NSS)三个存储利器,可满足不同环境规模、容量和性能要求。

在2018年完成的一项测试中,以戴尔易安信Isilon F800全闪存存储作为后端存储,进行主流图像分类模型训练,这个测试中,GPU使用率可以达到97%,训练数据放置于GPU服务器,本地SSD硬盘与共享存储对训练性能的影响只有2%,基本做到存储性能无瓶颈。

此外,GPU分布式集群训练中,除了更高性能的计算、存储与网络架构,如果能在软件层面上做一些优化,比如优化GPU参数同步效率,那么软硬结合将事半功倍。戴尔易安信将最新软件优化机制与高性能基础架构硬件结合,可以实现最好的分布式训练性能。

例如,传统TensorFlow分布式训练,采用参数服务器机制,各个GPU通过数据同步训练得到的参数,需要通过参数服务器进行参数同步,再分发到集群中各GPU。而网络传输参数量大的时候,参数服务器会成为性能瓶颈。

Horovod则对TensorFlow参数同步机制进行了优化,取消参数服务器,改为Ring Allreduce方式,这种方式下,所有参与计算的N个GPU排成一个“握手环路”,将训练参数分成N份,每一次GPU只与环中上一个和下一个GPU交换1/N的参数,通过N-1个时间周期完成全部交换。

实践证明,RingAllreduce对传输带宽的利用率最高。

戴尔易安信基于Horovod优化的TensorFlow,使用2台四GPU卡服务器做分布式训练。可以看到,在一些主流图像分类模型上,与1台八GPU卡服务器相比,分布式训练的性能已经超过了单机Scale-up——Inception-v4超出19%,VGG-16超出26%,ResNet-50超出18%,GoogLeNet超出27%。

而更大规模的分布式训练集群,32张V100构成的GPU集群,在MXNet框架下进行ResNet50图像分类训练,性能表现为单GPU卡性能的29.4倍;采用Caffe2框架,加速比为26.5倍。

由此可见,在提高算力方面,集群化的功效非同一般。


  第三把利剑:多元化  

在同等算力要求下,芯片功耗也是AI研究中比较关注的地方。很多企业异构计算小组正在寻找更高性能或功耗更低的解决方案,目前,FPGA和ASIC是替代GPU的两大热门方向,AI异构加速也是戴尔易安信一直在研究的技术领域。

FPGA

FPGA采用硬件可编程逻辑门电路设计,具有丰富的可重配置的片上资源,运行时无需加载并解释指令,具有高并发、低延迟、低功耗的优良特性。在嵌入式推理、云端高并发低延迟推理和视频图像预处理等AI领域,FPGA值得期待。

 目前,戴尔易安信的计算解决方案可以支持Intel的FPGA加速方案。

不过,FPGA应用面临的最大问题是开发难度,这需要工程师能够比较熟练地掌握硬件描述语言HDL。这方面,戴尔易安信与Intel携手,希望将2018年12月在重庆揭牌的FPGA中国创新中心,打造为加速FPGA人才培养与应用落地的基地。

ASIC

基于ASIC的AI专用芯片(如谷歌的TPU)也同样备受关注。戴尔科技集团投资了一家AI芯片初创企业——Graphcore,Graphcore总部位于英国的,目前估值17亿美金,其AI加速芯片IPU计划于19年下半年上市。

Graphcore IPU加速卡,单张峰值性能250Tops。IPU采用同构多核架构,单片上提供2432个独立的处理器;它大量采用片上SRAM而非传统DRAM,参数权重存储在处理器的高速缓存。

单台戴尔易安信DSS 8440服务器,最多可以支持8张IPU加速卡。在早先进行的一些深度学习训练和推理测试中,Graphcore IPU表现出了非常出色的性能。

我们有理由相信,随着AI计算精细化让芯片发挥最佳计算性能,集群化让更多处理器参与到计算加速,以及新一代更强大的AI芯片的商用,未来就绪的AI基础架构有能力迎接AI计算新摩尔定律的挑战。

未来,估计李博士喝咖啡品茶等待运算结果的时间将越来越短,这对李博士们而言是好事还是坏事?

大概率是好事吧!

在线咨询
项目咨询
采购咨询专线400-884-6610
订阅偏好享优先通知
热门评论
暂无相关评论
删除回复
回复
删除回复
更多回复
查看全部条评论
{{dataFromApi ? '您是否在找' : '其他企业都在看'}}
{{item.slogan}}
{{item.slogan}}
{{item.title}}
咨询客服获取特惠价{{item.sale}}{{item.price}}{{item.sale}} {{item.price}}
项目咨询
发表评论...
  • 在线客服
    联系客服
    (工作日 08:30-17:30)
  • 项目咨询
  • 采购咨询专线
    400-884-6610
    (工作日 08:30-17:30)
  • 售后咨询专线
    7*24小时客户支持
    400-886-8616
    400-886-8618
取消发送
取消发送
热门评论
删除回复
回复
删除回复
更多回复
暂无相关评论
发表评论...
发送
戴尔官方企采中心
删除该评论,是否确认操作?
取消
确认

参与问卷提交即有机会成为幸运用户,

赢取精彩礼品一份,寻找幸运的你,快来参与吧!

立即参与>>
5秒后自动关闭
取消
最近搜索
    热门搜索
    • AI PC
    • 2025新品
    • Dell Pro 笔记本
    • Dell Pro 台式机
    • Dell Pro Max 工作站
    • Dell Pro 显示器
    • 17G 服务器
    • 数据存储
    • 数据保护

    如果您对当前页面内容感兴趣,

    可填写“项目咨询单”,

    进行专业咨询及帮助。

    戴尔企采中心
    戴尔专线客服
    您好,我们的在线客服人工咨询时间为工作日的 8:30-17:30,感谢您的咨询! 请留下您的联系方式,我们会在下个工作日第一时间与您取得联系,祝您生活愉快,工作顺利~
    管理您的Cookie
    戴尔使用不同类型的 Cookie 来优化您的体验并启用某些网站功能,改善您的整体网页浏览体验。请注意,如果阻止 Cookie,则可能会影响您的网站体验,并可能对我们可提供的服务或功能造成影响。
    基本

    允许用户在我们的网站上移动以及提供访问诸如您的个人资料和购买、登录凭据以及网站其他区域等功能的访问权限。

    营销

    用于了解我们网站上的用户行为,并展示与您的兴趣更相关的广告。

    统计

    通过收集和报告信息,帮助我们了解访问者如何与我们的网站互动。

    * 点击确认按钮或关闭Cookie弹窗代表您已同意以上内容。

    拒绝
    确认
    取消
    确认
    请确认您的邮箱地址,
    我们会发送下载链接至您的邮箱。
    请填写正确邮箱
    您的企业近期是否有采购 IT 产品的计划?
    请选择
    提交并获取下载链接
    提交成功,下载链接已发送到您的邮箱,
    请查收!

    戴尔发布针对AI领域服务器产品

    还剩2页未读

    图片标题

    戴尔发布针对AI领域服务器产品

    批量议价
    填写您的感兴趣的产品及个人信息,提交成功后会有专人与您沟通,为您提供专属底价。
    OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020
    为通用型商务应用程序设计的可靠为通用型商务应用程序设计的可靠为通用型商务应用程序设计的可靠
    型号

    8G 1TB SAS H330 DVDRW 495W

    参考价格
    6499.006499.00咨询客服获取特惠价
    意向购买数量
    1
    * 公司名称
    请输入公司名称
    * 姓名
    请输入姓名
    * 手机
    请输入手机
    * 邮箱
    请输入邮箱
    * 需求描述
    请选择
    采购专线
    联系客服
    提交
    *验证码无效
    确认
    全新PowerEdge DSS8840
    DSS8440是一款2路4U服务器,旨在为机器学习应用提供极高的性能,配备多达10个加速器
    PowerEdge DSS840 型号1
    PowerEdge DSS840 型号2

    恭喜您,秒杀成功!

    后续工作人员会与您进行联系

    抱歉,您没有抢到!

    您还可以参与其他产品的秒杀活动哦

    请输入兑换码

    PowerVault ME4012
    限时免费升级 / 提速不加价 / 性能秒提7倍
    限时促销
    5秒后自动关闭

    感谢您的报名

    返回首页
    请输入验证口令
    复制以下链接观看视频
    复制
    Toast 内容
    补全信息
    请补全您的身份信息
    * 姓名
    请输入姓名
    * 企业邮箱
    请输入企业邮箱
    * 公司全称
    请输入公司全称
    提交
    请准确填写您的邮箱
    完整报告即时发送到您的邮箱
    * 姓名
    请输入姓名
    * 企业邮箱
    请输入企业邮箱
    * 公司全称
    请输入公司全称
    提交
    请选择标签,将有助于提供精准服务
    您对哪类产品感兴趣?
    • 云
    您将应用于哪个领域?
    • 大数据
    • 软件定义
    请输入您的企业邮箱与手机号,方便后续发送资料
    企业邮箱

    请输入企业邮箱

    手机号

    请输入手机号

    订阅成功

    我们将每月通过邮箱发送资料报告发给您

    成功图片
    关闭
    文章标题
    文章标题
    文章标题
    文章标题
    订阅您感兴趣的内容,我们将每月通过邮箱发送资料报告发给您
    开启订阅
    长按扫码关注戴尔企采网
    了解更多企采会员福利
    长按识别跳转小程序
    手机号绑定
    手机icon图标

    请输入手机号

    验证码icon图标
    获取验证码

    请输入验证码

    绑定手机号
    绑定手机号的三大理由
    1.网信办规定,互联网注册用户要提供基于移动电话号码等的真实身份。
    2.微信授权登录出现故障时,仍用手机号顺利登录,会员各项权益及活动不受影响。
    3.绑定手机号即可享受免费抽奖、0元试用、积分兑换好礼等会员权益。
    loading请稍后...
    订阅弹层
    订阅表单弹层
    邮箱:
    姓名:
    订阅成功弹层
    {{form.textBtnText}}
    {{form.textBtnText}}
    {{form.subBtnText}}
    去注册
    {{form.textBtnText}}
    获取“戴尔资产报告”
    请提供设备使用方的相关信息,以免影响后续保修
    立即获取
    获取“戴尔资产报告”
    您已提交成功,请您注意查收邮件,“戴尔资产报告”将在2个工作日以邮件的形式发送给您
    查看设备保修情况
    注册有礼
    去认证