首页
正文
2023/06/21

别让存储成为模型训练的关键瓶颈

戴尔官方企采中心
关键词:GPUPowerScale存储

当下科技行业be like...

据说现在的科技公司,不是在抢GPU,就是在往抢GPU的路上……此前4月,特斯拉CEO马斯克就购买了1万块GPU,他还称公司将继续大量购买英伟达的GPU。

在国内,近日也有报道称,字节跳动今年向英伟达订购了超过10亿美元的GPU,仅字节一家公司今年的订单,可能已接近英伟达去年在国内销售的商用GPU总和。

而在企业这边,为了“珍惜”来之不易的GPU,IT人员也在快马加鞭,他们希望能让GPU时刻忙碌,从而确保投资回报。不过有的企业可能会发现,GPU数量增加了,但GPU闲置却越来越严重。

原因何在?


别让存储成为你的

关键瓶颈

如果说HPC的历史教会了我们什么的话,那就是不能以牺牲存储和网络为代价,过分关注计算。如果存储无法以良好的性能及时将数据传输到计算单元,那么即使你手握世界上最多的GPU,也无法将其转化为效率。

IT分析公司 Small World Big Data 的分析师 Mike Matchett 表示,有些模型足够小,可以在内存(RAM)中执行,从而将更多的注意力放在计算上。但如今像ChatGPT这样的大模型,需要数十亿个节点,无法保存在内存中,因为成本太高。

“你无法在内存中存放数十亿个节点,存储变得更加重要。”Matchett 说。


一般而言,无论是怎样的用例,在模型训练的过程中都有四个共同点: 

  1. 训练模型 

  2. 推理应用 

  3. 数据存储  

  4. 加速计算 



而在这些要素中,数据存储在规划过程中往往容易被忽视。

因为在创建和部署模型时,大多数的要求是迅速通过POC或测试环境,从而尽快开展模型训练,数据存储需求并不是优先考虑的。

然而,挑战在于训练或推理部署可能持续数月或数年时间。许多公司在这段时间里迅速扩大了模型规模,而基础设施也必须扩展以适应不断增长的模型和数据集。

谷歌此前公布的数百万ML训练工作负载的研究报告表明,工作负载平均花费30%的训练时间在输入数据的管道上。虽然过去的一些研究工作侧重于通过优化GPU来加速训练,但在优化数据管道的各个部分方面仍然面临许多挑战。


确定合适的存储系统

当你有了非常强大的算力后,真正的瓶颈变成了你能以多快的速度将数据输入计算,从而得到结果。

特别是数据存储和管理方面的挑战,需要对数据增长进行规划,这样你就可以在前进的过程中不断获取数据的价值,特别是当你开始更高级的用例,如深度学习和神经网络,这对存储的能力、性能和规模提出了更高的要求。具体而言: 


可扩展性

机器学习需要组织处理大量数据,而且数据量越大,模型的准确性相对也越高,这意味着企业每天必须收集和存储越来越多的数据。而当存储无法扩展时,数据密集型工作负载会产生瓶颈,这会限制性能并导致昂贵的GPU闲置。


灵活性

灵活利用多种协议支持(包括NFS、SMB、HTTP、FTP、HDFS和S3),以确保满足不同系统的需求,而不仅仅是单一类型的环境。


延迟

I/O的延迟对于构建和使用模型很重要,因为数据会被多次读取和重读。减少I/O延迟可以将模型的训练时间缩短数天或数月。更快的模型开发直接转化为更大的业务优势。


吞吐量

当然,存储系统的吞吐量对于高效的模型训练也至关重要。训练过程使用大量数据,通常以每小时TB为单位。


并行访问

为了实现高吞吐量,训练模型会将活动拆分为多个并行任务。这通常意味着机器学习算法会同时从多个进程(可能在多个物理服务器上)访问相同的文件。存储系统必须能够在不影响性能的情况下应对并发需求。


首屈一指横向扩展NAS存储

为模型训练提供动力

凭借低延迟、高吞吐量和大规模并行I/O的卓越能力,戴尔PowerScale是GPU加速计算的理想存储补充。

PowerScale能够有效地压缩训练和测试多字节数据集的分析模型所需的时间。在PowerScale全闪存存储中,带宽增加了18倍,从而消除了I/O瓶颈,并且可以添加到现有的Isilon集群中,以加速和释放大量非结构化数据的价值。

此外,PowerScale的多协议访问能力,为企业运行工作负载提供了无限灵活性,这些工作负载既可以使用一种协议存储数据,也能够使用另一种协议访问数据。


具体而言,PowerScale平台的强大功能、灵活性、可扩展性和企业级功能可帮助您应对挑战:  

●以高达2.7倍的性能加速创新,加快模型训练周期。

●利用企业级功能、高性能、并发性和可扩展性消除I/O瓶颈,提供更快的模型训练和验证,提高模型精度,改善数据科学生产力,并使计算投资回报率(ROI)最大化。 

●通过在单个集群中高达119PB的有效存储容量,以更深的高分辨率数据集提高模型的准确性。

●利用灵活的部署和网络弹性,使您能够从小规模开始,独立扩展计算和存储,以实现大规模部署,并提供强大的数据保护和安全选项。

●通过灵活的就地分析和预先验证的解决方案,提高数据科学的生产力,以实现更快的、低风险的部署。

●经验证的设计基于同类最佳技术,包括 NVIDIA GPU加速和带有NVIDIA DGX系统的参考架构。  


PowerScale的高性能、高并发性能可满足机器学习从数据采集、数据准备、模型训练和模型推理各阶段对存储性能的要求;加上其搭载的OneFS操作系统,使所有节点能够在同一OneFS驱动的集群中无缝运行,并具有性能管理、数据管理、安全和数据保护等企业级功能,能更快帮助企业完成模型的训练和验证。




在线咨询
项目咨询
采购咨询专线400-884-6610
订阅偏好享优先通知
热门评论
暂无相关评论
删除回复
回复
删除回复
更多回复
查看全部条评论
{{dataFromApi ? '您是否在找' : '其他企业都在看'}}
{{item.slogan}}
{{item.slogan}}
{{item.title}}
咨询客服获取特惠价{{item.sale}}{{item.price}}{{item.sale}} {{item.price}}
项目咨询
发表评论...
  • 在线客服
    联系客服
    (工作日 08:30-17:30)
  • 项目咨询
  • 采购咨询专线
    400-884-6610
    (工作日 08:30-17:30)
  • 售后咨询专线
    7*24小时客户支持
    400-886-8616
    400-886-8618
取消发送
取消发送
热门评论
删除回复
回复
删除回复
更多回复
暂无相关评论
发表评论...
发送
戴尔官方企采中心
删除该评论,是否确认操作?
取消
确认

参与问卷提交即有机会成为幸运用户,

赢取精彩礼品一份,寻找幸运的你,快来参与吧!

立即参与>>
5秒后自动关闭
取消
最近搜索
    热门搜索
    • AI PC
    • 2025新品
    • Dell Pro 笔记本
    • Dell Pro 台式机
    • Dell Pro Max 工作站
    • Dell Pro 显示器
    • 17G 服务器
    • 数据存储
    • 数据保护

    如果您对当前页面内容感兴趣,

    可填写“项目咨询单”,

    进行专业咨询及帮助。

    戴尔企采中心
    戴尔专线客服
    暑期大放价,焕新3.7折起!注册享免费抽奖、0元试用、千元好礼、万元服务、资产回收等。详情咨询在线客服或拨打400-884-6610
    请在这里输入内容
    发送
    管理您的Cookie
    戴尔使用不同类型的 Cookie 来优化您的体验并启用某些网站功能,改善您的整体网页浏览体验。请注意,如果阻止 Cookie,则可能会影响您的网站体验,并可能对我们可提供的服务或功能造成影响。
    基本

    允许用户在我们的网站上移动以及提供访问诸如您的个人资料和购买、登录凭据以及网站其他区域等功能的访问权限。

    营销

    用于了解我们网站上的用户行为,并展示与您的兴趣更相关的广告。

    统计

    通过收集和报告信息,帮助我们了解访问者如何与我们的网站互动。

    * 点击确认按钮或关闭Cookie弹窗代表您已同意以上内容。

    拒绝
    确认
    取消
    确认
    请确认您的邮箱地址,
    我们会发送下载链接至您的邮箱。
    请填写正确邮箱
    您的企业近期是否有采购 IT 产品的计划?
    请选择
    提交并获取下载链接
    提交成功,下载链接已发送到您的邮箱,
    请查收!

    戴尔发布针对AI领域服务器产品

    还剩2页未读

    图片标题

    戴尔发布针对AI领域服务器产品

    批量议价
    填写您的感兴趣的产品及个人信息,提交成功后会有专人与您沟通,为您提供专属底价。
    OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020
    为通用型商务应用程序设计的可靠为通用型商务应用程序设计的可靠为通用型商务应用程序设计的可靠
    型号

    8G 1TB SAS H330 DVDRW 495W

    参考价格
    6499.006499.00咨询客服获取特惠价
    意向购买数量
    1
    * 公司名称
    请输入公司名称
    * 姓名
    请输入姓名
    * 手机
    请输入手机
    * 邮箱
    请输入邮箱
    * 需求描述
    请选择
    采购专线
    联系客服
    提交
    *验证码无效
    确认
    全新PowerEdge DSS8840
    DSS8440是一款2路4U服务器,旨在为机器学习应用提供极高的性能,配备多达10个加速器
    PowerEdge DSS840 型号1
    PowerEdge DSS840 型号2

    恭喜您,秒杀成功!

    后续工作人员会与您进行联系

    抱歉,您没有抢到!

    您还可以参与其他产品的秒杀活动哦

    请输入兑换码

    PowerVault ME4012
    限时免费升级 / 提速不加价 / 性能秒提7倍
    限时促销
    5秒后自动关闭

    感谢您的报名

    返回首页
    请输入验证口令
    复制以下链接观看视频
    复制
    Toast 内容
    补全信息
    请补全您的身份信息
    * 姓名
    请输入姓名
    * 企业邮箱
    请输入企业邮箱
    * 公司全称
    请输入公司全称
    提交
    请准确填写您的邮箱
    完整报告即时发送到您的邮箱
    * 姓名
    请输入姓名
    * 企业邮箱
    请输入企业邮箱
    * 公司全称
    请输入公司全称
    提交
    请选择标签,将有助于提供精准服务
    您对哪类产品感兴趣?
    • 云
    您将应用于哪个领域?
    • 大数据
    • 软件定义
    请输入您的企业邮箱与手机号,方便后续发送资料
    企业邮箱

    请输入企业邮箱

    手机号

    请输入手机号

    订阅成功

    我们将每月通过邮箱发送资料报告发给您

    成功图片
    关闭
    文章标题
    文章标题
    文章标题
    文章标题
    订阅您感兴趣的内容,我们将每月通过邮箱发送资料报告发给您
    开启订阅
    长按扫码关注戴尔企采网
    了解更多企采会员福利
    长按识别跳转小程序
    手机号绑定
    手机icon图标

    请输入手机号

    验证码icon图标
    获取验证码

    请输入验证码

    绑定手机号
    绑定手机号的三大理由
    1.网信办规定,互联网注册用户要提供基于移动电话号码等的真实身份。
    2.微信授权登录出现故障时,仍用手机号顺利登录,会员各项权益及活动不受影响。
    3.绑定手机号即可享受免费抽奖、0元试用、积分兑换好礼等会员权益。
    loading请稍后...
    订阅弹层
    订阅表单弹层
    邮箱:
    姓名:
    订阅成功弹层
    {{form.textBtnText}}
    {{form.textBtnText}}
    {{form.subBtnText}}
    去注册
    {{form.textBtnText}}
    获取“戴尔资产报告”
    请提供设备使用方的相关信息,以免影响后续保修
    立即获取
    获取“戴尔资产报告”
    您已提交成功,请您注意查收邮件,“戴尔资产报告”将在2个工作日以邮件的形式发送给您
    查看设备保修情况
    注册有礼
    去认证