首页
正文
2019/07/04

大咖专栏|拨云见月,专注于深度学习本身

戴尔官方企采中心

作为人工智能大爆炸的核心驱动,深度学习给机器学习领域带来了前所未有的巨大影响。面对火山喷发般的数据洪流,人们期望从深度学习中获得处理现实问题的助力。

然而前期准备却要占据大量时间精力,往往与简便解决复杂问题的目的背道而驰,本文从深度学习的统一支持框架入手,一步步帮助我们从繁杂的前期工作中夺回对深度学习本身的专注。


摘要

分布式深度学习应用往往需要用户在运行环境的多节点部署和可扩展性上投入大量时间与精力,而基于数据中心集群资源的深度学习工作负载的统一支持框架,主要目的是实现深度学习工作负载在数据中心资源池上的自动化部署与执行,从而帮助用户将更多注意力集中在商业逻辑和深度学习问题本身。




作者简介


李三平

李三平,戴尔易安信中国研究院首席科学家。毕业于美国麻省大学,计算机工程专业博士。目前主要围绕数据中心基础架构从事机器学习、深度学习相关的研发工作,包括基于集群资源的深度学习工作负载支撑框架,以支持深度学习模型自动化调参与工作负载的分布式部署;构建自动化机器学习工作流以提高数据中心基础架构预测性分析模型的可靠性与可迁移能力;探索元学习、少样本学习、脉冲神经网络等机器学习前沿技术在数据中心的应用案例。在国际学术期刊和IEEE Transactions发表论文20多篇,申请美国专利30余项,译著三本,参与编著一本。



工作流程概述

基于数据中心集群资源的深度学习工作负载统一支持框架的构成组件与工作流程下图所示。

▲深度学习工作负载的统一支持框架

Deep Learning  Harness


❶ 用户提交学习任务规范(或深度学习模型)与数据集;

❷ 深度学习后端服务系统按照问题类型与数据特征生成推荐模型;

❸ 为深度学习模型自动生成TensorFlow代码;

❹ 基于CPU、GPU集群计算资源池对学习任务进行优化调度;

❺ 启用深度学习工作负载监控分析工具;

❻ 载入代码与数据集,在指定资源上执行深度学习工作负载;

❼ 训练过程的实时可视化监测与检查点自动保存;

❽ 保存任务执行结果;

❾ 深度学习任务结果的分析与可视化。


接下来,我们就支持框架中的若干关键功能与实现方法依次展开讨论(如下图所示)。

▲支持框架的关键功能与实现方法


CPU-GPU计算资源池


将数据中心服务器集群中的CPU资源和各种不同类型、不同数目的GPU资源整合为逻辑上单一的计算资源池,用户可以不必花费大量精力去学习、理解不同类型计算资源的性能特点,尤其是在部署分布式深度学习工作负载时,用户只需指定期望的计算资源类型和数量即可;甚至用户可以不指定计算资源,支持框架中的资源控制器能够根据用户工作负载的特征,诸如模型复杂度、训练数据量等,动态选择最佳计算资源(我们会在后文中展开讨论)。

对计算资源的池化管理可以有效地实现智能调度,提高资源利用率,保证用户对深度学习工作负载的SLA要求。



深度学习任务的资源预估模型


前文中提到根据用户工作负载特征在计算资源池中动态选择最佳资源,这就意味着在用户学习任务实际运行之前,支持框架需要对任务的资源占用做出估计。因此,我们要利用机器学习方法构建针对深度学习任务的资源预估模型。

模型构建依据首先是深度神经网络高度结构化的特征,因此可以对模型复杂度进行量化描述;

其次是深度学习任务的资源消耗、运行时间与模型复杂度、数据规模、迭代次数等因素存在近似线性的对应关系。

以卷积神经网络为例,我们可以通过对诸如卷积层数目、卷积滤镜数目、全连接层数目、全连接层节点数目、输入图像大小、批数据大小等变量进行连续改变,从而得到一系列具有定制化结构的卷积神经网络。然后在特定类型与数量的计算资源上运行这些定制化的卷积网络学习任务,并对资源消耗、运行时间等数据进行监控记录。

这时我们就已经获得了卷积神经网络学习任务关于模型结构、资源消耗与时间性能的基准数据集,然后利用线性回归或者曲线拟合技术来构建机器学习模型。

在对深度学习任务进行资源预估时,输入信息包括用户提交或者自动生成的深度学习任务代码、训练数据规模、与学习任务相关的参数例如批数据大小、迭代次数等,以及用户的期望运行时间。


首先,从代码中提取深度学习模型结构,形成量化特征描述;

其次,预估模型会按照资源池中可用的计算资源类型与数量进行运行时间估计;

随后,在满足用户关于运行时间的约束下,模型会选择能耗最小的资源配置方案作为输出。




深度学习任务的资源配置推荐


基于资源预估模型,我们构建后端web服务以实现完整的面向深度学习任务的数据中心资源配置推荐机制。按照资源池中当前可用的资源类型和数量,利用机器学习模型对特定计算资源下的任务执行时间进行估计,同时将数据中心的服务器配置、网络连接与带宽、延迟等作为经验知识,在满足用户关于运行时间的要求下,遵循能耗最小化原则,为用户提供资源配置的推荐方案。



在异构GPU资源

上部署深度学习任务


数据中心的CPU-GPU计算资源池中,往往包含具有不同型号GPU的服务器集群,将用户的深度学习任务部署在由异构GPU组成的服务器集群上,无疑可以更加充分地利用数据中心的当前可用资源。但是,如果只是简单地遵循通常的分布式深度学习方法,那么在模型参数的同步过程中,相同规模的输入数据会导致性能较差的GPU引起性能更好的GPU的更新速度降低。

因此,在异构GPU资源上部署分布式深度学习任务,我们首先要考虑如何达到不同类型GPU之间的性能同步。简单来说,通过调整分配至不同GPU的批数据大小可以达到各个GPU之间参数更新的近似同步。基于资源预估模型的输出,结合自适应的批数据大小调整方法,我们可以很快找到异构GPU资源的批数据大小分配方案。

那么,当我们将输入数据的平均分配方法改为不均匀分配以屏蔽异构GPU之间的计算性能差异时,随之而来的另一个问题就是:理论上我们也改变了各个GPU节点上深度学习过程的收敛性能。所以,我们也需要相应调整深度学习模型的超参数,以保证训练任务的收敛性能不被影响。

学习率通常是深度模型超参数微调的首要选项,因此我们针对特定的批数据大小,利用启发式方法去寻找对当前深度学习模型来说最合适的学习率设置。首先使学习率以指数函数形式进行递增,观察训练阶段的精度曲线,并利用高阶曲线拟合与对数曲线拟合,以启发式方法找出学习率的优化区间或优化中值,以此作为梯度优化算法的学习率设置。



分布式深度学习

工作负载的自动部署


在确定了计算资源配置和相应的参数调整方案之后,支持框架还需要实现深度学习负载的自动化分布式部署,以形成完整的深度学习工作流程。例如,我们可以使用容器化技术,将数据中心的CPU、GPU资源以容器形式进行管理和提供,使用Horovod开源框架实现深度学习负载的多节点部署,编写可重用自动化脚本以实现训练数据的多节点预先载入,工作负载的跨节点部署和启动,同时还包括监控分析工具的启动,以及对监控数据、检查点文件和训练结果的自动保存。


结语

至此,支持框架帮助用户完成了深度学习工作负载在数据中心计算资源上的自动化部署和运行,用户就可以将更多的注意力集中在商业逻辑、数据分析与预处理、模型调试等问题上。也就是说,用户只需关注深度学习任务本身,支持框架则负责帮助用户实现工作负载在计算资源上的调度与执行。




本文首发于戴尔科技集团知乎专栏

“AIoT时代的数据资产”

这是一个由戴尔易安信中国研发中心

技术大咖们所管理的专栏

AI、IoT、大数据和数据存储...

你想知道的前沿技术趋势以及深度技术剖析

我们的研发人员将会持续在该专栏分享

扫描下方二维码即可关注我们

☟☟☟




戴尔易安信服务器、存储火热大促!

多品类服务器钜惠出击

低至二六折!


硬盘换闪存1:1促销,

买普通存储,免费升级全闪,不加价!


优惠多多,赶快行动吧!





相关阅读推荐:大咖专栏|用区块链思维探讨数据备份



在线咨询
项目咨询
采购咨询专线400-884-6610
订阅偏好享优先通知
0元试用图片
热门评论
暂无相关评论
删除回复
回复
删除回复
更多回复
查看全部条评论
{{dataFromApi ? '您是否在找' : '其他企业都在看'}}
{{item.slogan}}
{{item.slogan}}
{{item.title}}
咨询客服获取特惠价{{item.sale}}{{item.price}}{{item.sale}} {{item.price}}
项目咨询
发表评论...
  • 在线客服
    联系客服
    (工作日 08:30-17:30)
  • 项目咨询
  • 采购咨询专线
    400-884-6610
    (工作日 08:30-17:30)
  • 售后咨询专线
    7*24小时客户支持
    400-886-8616
    400-886-8618
取消发送
取消发送
热门评论
删除回复
回复
删除回复
更多回复
暂无相关评论
发表评论...
发送
戴尔官方企采中心
删除该评论,是否确认操作?
取消
确认

参与问卷提交即有机会成为幸运用户,

赢取精彩礼品一份,寻找幸运的你,快来参与吧!

立即参与>>
5秒后自动关闭
取消
最近搜索
    热门搜索
    • AI PC
    • 2025新品
    • Dell Pro 笔记本
    • Dell Pro 台式机
    • Dell Pro Max 工作站
    • Dell Pro 显示器
    • 17G 服务器
    • 数据存储
    • 数据保护

    如果您对当前页面内容感兴趣,

    可填写“项目咨询单”,

    进行专业咨询及帮助。

    戴尔企采中心
    戴尔专线客服
    您好,我们的在线客服人工咨询时间为工作日的 8:30-17:30,感谢您的咨询! 请留下您的联系方式,我们会在下个工作日第一时间与您取得联系,祝您生活愉快,工作顺利~
    管理您的Cookie
    戴尔使用不同类型的 Cookie 来优化您的体验并启用某些网站功能,改善您的整体网页浏览体验。请注意,如果阻止 Cookie,则可能会影响您的网站体验,并可能对我们可提供的服务或功能造成影响。
    基本

    允许用户在我们的网站上移动以及提供访问诸如您的个人资料和购买、登录凭据以及网站其他区域等功能的访问权限。

    营销

    用于了解我们网站上的用户行为,并展示与您的兴趣更相关的广告。

    统计

    通过收集和报告信息,帮助我们了解访问者如何与我们的网站互动。

    * 点击确认按钮或关闭Cookie弹窗代表您已同意以上内容。

    拒绝
    确认
    取消
    确认
    请确认您的邮箱地址,
    我们会发送下载链接至您的邮箱。
    请填写正确邮箱
    您的企业近期是否有采购 IT 产品的计划?
    请选择
    提交并获取下载链接
    提交成功,下载链接已发送到您的邮箱,
    请查收!

    戴尔发布针对AI领域服务器产品

    还剩2页未读

    图片标题

    戴尔发布针对AI领域服务器产品

    批量议价
    填写您的感兴趣的产品及个人信息,提交成功后会有专人与您沟通,为您提供专属底价。
    OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020
    为通用型商务应用程序设计的可靠为通用型商务应用程序设计的可靠为通用型商务应用程序设计的可靠
    型号

    8G 1TB SAS H330 DVDRW 495W

    参考价格
    6499.006499.00咨询客服获取特惠价
    意向购买数量
    1
    * 公司名称
    请输入公司名称
    * 姓名
    请输入姓名
    * 手机
    请输入手机
    * 邮箱
    请输入邮箱
    * 需求描述
    请选择
    采购专线
    联系客服
    提交
    *验证码无效
    确认
    全新PowerEdge DSS8840
    DSS8440是一款2路4U服务器,旨在为机器学习应用提供极高的性能,配备多达10个加速器
    PowerEdge DSS840 型号1
    PowerEdge DSS840 型号2

    恭喜您,秒杀成功!

    后续工作人员会与您进行联系

    抱歉,您没有抢到!

    您还可以参与其他产品的秒杀活动哦

    请输入兑换码

    PowerVault ME4012
    限时免费升级 / 提速不加价 / 性能秒提7倍
    限时促销
    5秒后自动关闭

    感谢您的报名

    返回首页
    请输入验证口令
    复制以下链接观看视频
    复制
    Toast 内容
    补全信息
    请补全您的身份信息
    * 姓名
    请输入姓名
    * 企业邮箱
    请输入企业邮箱
    * 公司全称
    请输入公司全称
    提交
    请准确填写您的邮箱
    完整报告即时发送到您的邮箱
    * 姓名
    请输入姓名
    * 企业邮箱
    请输入企业邮箱
    * 公司全称
    请输入公司全称
    提交
    请选择标签,将有助于提供精准服务
    您对哪类产品感兴趣?
    • 云
    您将应用于哪个领域?
    • 大数据
    • 软件定义
    请输入您的企业邮箱与手机号,方便后续发送资料
    企业邮箱

    请输入企业邮箱

    手机号

    请输入手机号

    订阅成功

    我们将每月通过邮箱发送资料报告发给您

    成功图片
    关闭
    文章标题
    文章标题
    文章标题
    文章标题
    订阅您感兴趣的内容,我们将每月通过邮箱发送资料报告发给您
    开启订阅
    长按扫码关注戴尔企采网
    了解更多企采会员福利
    长按识别跳转小程序
    手机号绑定
    手机icon图标

    请输入手机号

    验证码icon图标
    获取验证码

    请输入验证码

    绑定手机号
    绑定手机号的三大理由
    1.网信办规定,互联网注册用户要提供基于移动电话号码等的真实身份。
    2.微信授权登录出现故障时,仍用手机号顺利登录,会员各项权益及活动不受影响。
    3.绑定手机号即可享受免费抽奖、0元试用、积分兑换好礼等会员权益。
    loading请稍后...
    订阅弹层
    订阅表单弹层
    邮箱:
    姓名:
    订阅成功弹层
    {{form.textBtnText}}
    {{form.textBtnText}}
    {{form.subBtnText}}
    去注册
    {{form.textBtnText}}
    获取“戴尔资产报告”
    请提供设备使用方的相关信息,以免影响后续保修
    立即获取
    获取“戴尔资产报告”
    您已提交成功,请您注意查收邮件,“戴尔资产报告”将在2个工作日以邮件的形式发送给您
    查看设备保修情况
    注册有礼
    去认证