首页
正文
2018/04/27

【工程师笔记】第六期:一项Xeon E5-2600 v4测试数据的背后

唐僧
点击"戴尔企业级解决方案"快速订阅


做技术的朋友可能有过类似这样的感觉——每天都会遇到新的问题,或者学到新的知识。然而一个人的时间和精力毕竟有限,不是所有的岗位都能做到总是亲力亲为,每人最擅长的领域也各不相同。为了使工程师自己踩过的坑、那些实用的心得体会也能给大家带来帮助,把经验记录和分享出来就显得尤为可贵,这就是我们开设《工程师笔记》专栏的目的。


一项Xeon E5-2600 v4测试数据的背后



Intel新一代服务器处理器Xeon E5-2637 v4标称的内存带宽76.8GB/s,达到了该系列的最高水平,不过在实测中它与有的同门兄弟相比却有一些差距。类似的情况也出现在E5-2623 v4几款上面,这是为什么呢?

从Pentium III Xeon 933 PK 
Pentium III 933说起
在准备撰写本文的过程中,我想起10多年前的一个故事,也是与Intel Xeon(至强)CPU相关的

Pentium III Xeon 733-933,Slot-2、133MHz前端总线、256KB全速L2 Cache

搞服务器比较早的朋友可能还记得,Intel第一代服务器专用处理器是Pentium Pro,当年我见过单Socket 8插槽的Pentium Pro主板(华硕P6NP5)。当桌面产品线升级到Pentium II和Pentium III时,开始出现相对应采用Slot 2插槽的Xeon产品线。Pentium II Xeon和早期的Pentium III Xeon L2 Cache容量有1-2MB,当时CPU的工艺还难以将如此大容量SRAM和CPU内核集成到一个Die上面。

从133MHz前端总线的Pentium III Xeon开始,Intel直接将on-die 256KB二级缓存的Pentium III设计拿过来用。不过当时的用户也不傻,比如Pentium III Xeon 700 2MB的价格高达1万多,而Pentium III Xeon 866/933 256KB大约在5-6千元。

相比之下,同样256KB 缓存的Pentium III 933只有2千多。那时候我还真碰上一位用户就要选择Xeon 933,理由是他了解到性能比普通Pentium III高出5%。

从那往后到Pentium 4与Intel Xeon的一段时间内,除了单双路和CPU封装/主板不同之外,服务器与桌面CPU规格上差别确实不大。一对一的性能差距,有时就是Intel将L2 Cache时序设置不同这样的原因。

内存带宽测试及实际应用价值
硬件设计上的不同,会反映在有些性能测试中。CPU Cache会影响到处理器访问内存的效率,包括缓存命中率等。在本文中我们讨论内存带宽测试,目的就是分析影响到该性能的CPU参数,由于今天的CPU比当初要复杂很多,所以得出结论不会那么简单。

引用自《Performance and Energy Efficiency of Dell PowerEdge Servers with E5-2600 v4》

在4月1日那天,Intel正式发布了新一代双路服务器处理器Intel Xeon E5-2600 v4,随之而来的有更先进的工艺、更多的核心、更高的处理能力和能效比等。当然若干项基准测试纪录又一次被刷新了。

各种漂亮的数据我不想一一列举,上图来自一份戴尔文档的“Memory subsystem performance”部分,可以看到在相同的PowerEdge 13G服务器平台上v4处理器测出的内存带宽比v3更高。这一点倒是不意外,因为Xeon E5-2600 v4内存支持到DDR4 2400,而v3只能到DDR4 2133。

而我也听不少用户反映过,说他们的应用对内存带宽不敏感,只要配置的容量够了就行。这个确实与应用类型有关,哪些用户需要更多在意这个指标呢?

上图的Linpack浮点计算性能测试,是HPC(高性能计算)行业所公认的。我们看到,在相同主频、核心数、内存频率以及功耗的情况下,BDW(Broadwell,Xeon E5-2667 v4)的核心效率比上一代Xeon E5-2667 v3提高了13%。

而在将Xeon E5v4的内存频率提高到DDR4 2400之后,性能又有进一步提高。初步结论就是高内存带宽对高性能计算应用是有价值的。

性能不完全符合理论值,原因何在?
2016年2月SPA lab使用Dell PowerEdge R730服务器
测试,点击放大显示

真正引发我们撰写本文的,是上面这个对比图表。首先我标出了一个小错误,E5-2630 v4是10核心而不是8核,它与大部分型号的L3 Cache配置都是2.5MB per Core。而在这一代产品中也有一个例外,E5-2667 v4、E5-2643 v4和E5-2637 v4这三款频率优化型CPU的L3 Cache大于这个比例。

我最初看到这个对比时有些不解之处:测试结果并不完全按照理论内存带宽排列,而是有些意外之处(红圈部分)。同时我们也注意到图中还有关于内存控制器数量的描述,从最左边的E5-2699 v4到E5-2650(L) v4这些12核及以上的CPU都是2个内存控制器,右边的10核及以下的只有1个内存控制器。

上图截自http://ark.intel.com网站,正如我们在本文开头所述,单内存控制器(同样支持4通道DDR4 2400)的E5-2667 v4、E5-2643 v4和E5-2637 v4,标称内存带宽与双内存控制器的型号同为76.8GB/s。

接下来我们就想探究影响这一测试结果的原因,先列出几种可能性(多选):
a.内存频率
b.内存控制器数量?
c.QPI带宽?
d.L3 Cache容量?
e.环形总线(Ring bus)瓶颈?
f.CPU核心数量 or 主频?

首先第1点不用问了,第2点根据对比数字和戴尔文档中的标识也可以基本确认;接下来就是看下列几个疑点与c/d/e/f中的哪些项目相关:

1.E5-2637 v4(4核心)测试内存带宽落后于另外2款DDR4 2400单内存控制器的CPU;
2.E5-2623 v4(4核心)测试内存带宽落后于另外3款DDR4 2133单内存控制器的CPU;
3.E5-2603 v4(6核心)测试内存带宽落后于同为DDR4 1866单内存控制器的E5-2609 v4。

注:Xeon E5-2623 v4官网标称的内存带宽,与其它DDR4 2133单内存控制器的CPU同为68.3GB/s。

STREAM测试工具、
OSB+DIR snoop新特性
由于要分析性能瓶颈,我们就需要对测试工具及其产生的压力负载进行了解。为此我请教了一位朋友——戴尔解决方案顾问杨小雷,下面是他发的一条微博。

通过与这位朋友的交流我还得知:STREAM工具测出来的带宽要在BIOS里设置本地访问的模式,就是它下面标的OSB+DIR snoop。所以理论上的内存带宽是每个CPU理论最大带宽的2倍。这是Broadwell的默认模式,Xeon E5-2600 v4的新特性,以前没有的。

这样一来QPI带宽的因素也可以排除了。关于“snoop”,让我回想起2008年撰写过的Intel Xeon 5400服务器/工作站平台:

“Snoop Filter(探听过滤器)是一种特殊的缓存,用于存储CPU二级缓存的索引信息(只是包括其标签和状态,不包括数据),有助于减少处理器的前端总线发生数据堵塞的情况,提高前端总线的效率。Snoop Filter的容量要大于或等于每个CPU二级缓存容量之和才能发挥最佳的作用,5400系列处理器的二级缓存从5300系列的8MB增加到12MB,相应的5400芯片组中Snoop Filter也由5000X的16MB增加到24MB。”

如今发生了一些变化,CPU整合了内存控制器(IMC),多处理器Xeon平台也从SMP变成了NUMA架构。如果我没理解错的话,类似于Snoop Filter的功能现放在CPU上实现,而L3 Cache的部分功能就是包含每个Core的L1 Cache和L2 Cache数据,以保证缓存的全局一致性访问。

上表引用自《Measuring Performance of Intel Broadwell Processors with High Performance Computing Benchmarks》

Xeon E5v4架构:
L3 Cache容量影响内存带宽发挥
这结论看似顺理成章,但并不是每一次拍脑袋都能正确,所以我们才要建立在实测数据分析的基础上。另外,还有没有读者不了解为什么Xeon E5会有单/双两种不同的内存控制器数量?

上图(点击放大)来自国外网站,其中红框标出的部分与最终发布的产品规格有少量出入

Broadwell EP即Xeon E5-2600 v4的代号,其实从v2开始Intel超过10核心就采用2个(对)环形总线和双内存控制器(总数还是4通道)的设计。

与上图有所出入的是,最右边的单内存控制器(LCC)也包括10核心的Xeon E5-2640 v4和Xeon E5-2630L v4。前文中我们确认了将内存控制器连接到环形总线的Home Agent在DDR4 2400这样高频率下可能成为瓶颈。

接下来就靠数字分析了,在这里省略掉我思考的过程。根据前面列出的Xeon E5-2600 v4全线内存带宽对比,4核10MB L3 Cache的2623 v4表现最低;另外2款较低的E5-2637 v4(4核心)E5-2603 v4(6核心)都是15MB L3 Cache;而在L3 Cache达到20MB之后,STREAM测试的数值基本上就是内存频率的反映了。


Intel有意为频率优化型CPU补短?
Intel Xeon E5-2600 v4系列中的几款频率优化型CPU,由于减少了核心数量,相应的内存控制器数量和L3 Cache也受到影响,尽管它们仍支持较高的内存频率,但实际带宽性能表现受到一定影响。大多数HPC应用讲究计算的并行度和能耗比,估计不会选择这几款;而在意单线程性能的应用(如:工作站),对内存带宽不见得敏感。

而另一方面,Intel将E5-2667 v4、E5-2643 v4和E5-2637 v4这三款CPU的L3 Cache加大,客观上减少了实际内存带宽下降的幅度。

最终把问题搞清楚,又客串了一把工程师的小编我也该补补脑了:)而真正的专家是在文中提到的那位朋友,同时也要感谢下我的另一位朋友乔峰。

✉
不知您看完本文有什么感想,是否有帮助呢?如果您对《工程师笔记》栏目有任何的意见或者建议,都可以在文章下面留言,以便我们将来能够更好地为读者服务。

在线咨询
项目咨询
采购咨询专线400-884-6610
订阅偏好享优先通知
热门评论
暂无相关评论
删除回复
回复
删除回复
更多回复
查看全部条评论
{{dataFromApi ? '您是否在找' : '其他企业都在看'}}
{{item.slogan}}
{{item.slogan}}
{{item.title}}
咨询客服获取特惠价{{item.sale}}{{item.price}}{{item.sale}} {{item.price}}
项目咨询
发表评论...
  • 在线客服
    联系客服
    (工作日 08:30-17:30)
  • 项目咨询
  • 采购咨询专线
    400-884-6610
    (工作日 08:30-17:30)
  • 售后咨询专线
    7*24小时客户支持
    400-886-8616
    400-886-8618
取消发送
取消发送
热门评论
删除回复
回复
删除回复
更多回复
暂无相关评论
发表评论...
发送
唐僧
删除该评论,是否确认操作?
取消
确认

参与问卷提交即有机会成为幸运用户,

赢取精彩礼品一份,寻找幸运的你,快来参与吧!

立即参与>>
5秒后自动关闭
取消
最近搜索
    热门搜索
    • AI PC
    • 2025新品
    • Dell Pro 笔记本
    • Dell Pro 台式机
    • Dell Pro Max 工作站
    • Dell Pro 显示器
    • 17G 服务器
    • 数据存储
    • 数据保护

    如果您对当前页面内容感兴趣,

    可填写“项目咨询单”,

    进行专业咨询及帮助。

    戴尔企采中心
    戴尔专线客服
    您好,我们的在线客服人工咨询时间为工作日的 8:30-17:30,感谢您的咨询! 请留下您的联系方式,我们会在下个工作日第一时间与您取得联系,祝您生活愉快,工作顺利~
    管理您的Cookie
    戴尔使用不同类型的 Cookie 来优化您的体验并启用某些网站功能,改善您的整体网页浏览体验。请注意,如果阻止 Cookie,则可能会影响您的网站体验,并可能对我们可提供的服务或功能造成影响。
    基本

    允许用户在我们的网站上移动以及提供访问诸如您的个人资料和购买、登录凭据以及网站其他区域等功能的访问权限。

    营销

    用于了解我们网站上的用户行为,并展示与您的兴趣更相关的广告。

    统计

    通过收集和报告信息,帮助我们了解访问者如何与我们的网站互动。

    * 点击确认按钮或关闭Cookie弹窗代表您已同意以上内容。

    拒绝
    确认
    取消
    确认
    请确认您的邮箱地址,
    我们会发送下载链接至您的邮箱。
    请填写正确邮箱
    您的企业近期是否有采购 IT 产品的计划?
    请选择
    提交并获取下载链接
    提交成功,下载链接已发送到您的邮箱,
    请查收!

    戴尔发布针对AI领域服务器产品

    还剩2页未读

    图片标题

    戴尔发布针对AI领域服务器产品

    批量议价
    填写您的感兴趣的产品及个人信息,提交成功后会有专人与您沟通,为您提供专属底价。
    OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020
    为通用型商务应用程序设计的可靠为通用型商务应用程序设计的可靠为通用型商务应用程序设计的可靠
    型号

    8G 1TB SAS H330 DVDRW 495W

    参考价格
    6499.006499.00咨询客服获取特惠价
    意向购买数量
    1
    * 公司名称
    请输入公司名称
    * 姓名
    请输入姓名
    * 手机
    请输入手机
    * 邮箱
    请输入邮箱
    * 需求描述
    请选择
    采购专线
    联系客服
    提交
    *验证码无效
    确认
    全新PowerEdge DSS8840
    DSS8440是一款2路4U服务器,旨在为机器学习应用提供极高的性能,配备多达10个加速器
    PowerEdge DSS840 型号1
    PowerEdge DSS840 型号2

    恭喜您,秒杀成功!

    后续工作人员会与您进行联系

    抱歉,您没有抢到!

    您还可以参与其他产品的秒杀活动哦

    请输入兑换码

    PowerVault ME4012
    限时免费升级 / 提速不加价 / 性能秒提7倍
    限时促销
    5秒后自动关闭

    感谢您的报名

    返回首页
    请输入验证口令
    复制以下链接观看视频
    复制
    Toast 内容
    补全信息
    请补全您的身份信息
    * 姓名
    请输入姓名
    * 企业邮箱
    请输入企业邮箱
    * 公司全称
    请输入公司全称
    提交
    请准确填写您的邮箱
    完整报告即时发送到您的邮箱
    * 姓名
    请输入姓名
    * 企业邮箱
    请输入企业邮箱
    * 公司全称
    请输入公司全称
    提交
    请选择标签,将有助于提供精准服务
    您对哪类产品感兴趣?
    • 云
    您将应用于哪个领域?
    • 大数据
    • 软件定义
    请输入您的企业邮箱与手机号,方便后续发送资料
    企业邮箱

    请输入企业邮箱

    手机号

    请输入手机号

    订阅成功

    我们将每月通过邮箱发送资料报告发给您

    成功图片
    关闭
    文章标题
    文章标题
    文章标题
    文章标题
    订阅您感兴趣的内容,我们将每月通过邮箱发送资料报告发给您
    开启订阅
    长按扫码关注戴尔企采网
    了解更多企采会员福利
    长按识别跳转小程序
    手机号绑定
    手机icon图标

    请输入手机号

    验证码icon图标
    获取验证码

    请输入验证码

    绑定手机号
    绑定手机号的三大理由
    1.网信办规定,互联网注册用户要提供基于移动电话号码等的真实身份。
    2.微信授权登录出现故障时,仍用手机号顺利登录,会员各项权益及活动不受影响。
    3.绑定手机号即可享受免费抽奖、0元试用、积分兑换好礼等会员权益。
    loading请稍后...
    订阅弹层
    订阅表单弹层
    邮箱:
    姓名:
    订阅成功弹层
    {{form.textBtnText}}
    {{form.textBtnText}}
    {{form.subBtnText}}
    去注册
    {{form.textBtnText}}
    获取“戴尔资产报告”
    请提供设备使用方的相关信息,以免影响后续保修
    立即获取
    获取“戴尔资产报告”
    您已提交成功,请您注意查收邮件,“戴尔资产报告”将在2个工作日以邮件的形式发送给您
    查看设备保修情况
    注册有礼
    去认证