首页
正文
2018/01/25

网络出现黑洞怎么办?

王浩



点击“戴尔企业级解决方案”快速订阅


服务器和网络交换机,作为IT基础架构中最为核心的功能组件,是每一位IT系统网络工程技术人员日常接触最多也是最为熟悉的设备类型。无论是负责售前方案设计的架构师,还是担负系统部署和运维的现场工程师,虽然角色分工有所不同,但都有着一个共同的心愿:那就是希望自己设计、部署和运维的系统具有最好的可用性,不但平日里能够可靠、稳定和高效地承载上层业务应用,而且当故障发生时还能够按照预先设计的冗余策略实现既定的故障转移、自愈或容错。


作为一个IT人,在我个人日常的技术部署实践和问题诊断排错过程中,经常会发现一些不正确的网络配置,使得网络链路故障时,网络流量无法被正确引导至冗余路径,致使通讯异常,乃至业务中断。下面,将以Dell刀片系统的网络拓扑结构为例,介绍一种被我称为 “网络黑洞”的故障现象及其解决方法。


何谓“网络黑洞”?


首先,请看下面这张系统拓扑图:



上图中描绘了一个典型的刀片服务器网络接入场景:在Dell M1000e刀片系统中,单台刀片服务器(M630)通过两个集成网口(网卡1和网卡2),分别与刀片机箱上的交换机相连接(刀箱交换机模块A和刀箱交换机模块B)。刀片服务器网卡1和网卡2配置为Teaming或Bond方式。刀箱交换机模块A和B再通过各自的上行端口分别与核心交换机A和核心交换机B连接,每个刀箱交换机模块出于链路冗余考虑,都采用2条上行链路到核心交换机,每个刀箱交换机用于上行链路的2个端口配置为聚合方式(Port Channel)。两台核心交换机之间通过堆叠方式实现互连。


通过上述方式,我们构建了一个物理层全冗余的网络环境。那么,它真的能够具备我们所希望的网络冗余能力么?接下来,我们将一起分析看看,当这个系统中的某些网络链路出现故障时,会发生什么?


假设一

有一条从刀箱交换机模块A到核心交换机A的上行链路出现故障,如下图所示:



此时,来自网卡1的流量到达刀箱交换机模块A后,可以被刀箱交换机模块A从另1条未发生故障的上行链路转发到核心交换机B。来自于网卡2的流量到达刀箱交换机模块B后,与此前一样顺利地被转发到核心交换机。除了刀箱交换机模块A到核心交换机的上行链路带宽减少50%以外,不会有任何其他网络访问连通性方面的问题。


假设二

在假设1的基础上:如果上图中刀箱交换机模块A与核心交换机B之间的上行链路也发生故障,如下图所示:



此时,刀箱交换机模块A的上行端口已全部变为“link-down”状态,而它与刀片服务器网卡相连接的内部端口仍然保持“link-up”状态。这种情况下,刀片服务器操作系统的teaming或bond服务组件,确认网卡1和网卡2都是“link-up”状态,不会触发任何网络流量切换动作,一如此前的工作状态,继续发送数据流量到服务器网卡1和网卡2。请注意,此时问题出现了:被发送到网卡1的流量到达刀箱交换机模块A后,因为刀箱交换机模块A上行链路已全部中断,无法被转发至核心交换机,最终这部分数据流无法被送达目的主机,最终会因投递超时被丢弃。这部分流量仿佛落入了“黑洞”一般,得不到任何回应,将导致严重的丢包或断网情况发生。(注:究竟是完全断网还是部分丢包,与刀片服务器上teaming和bond所设定的网卡冗余的具体模式有关。)


Dell出招治理“网络黑洞”


以上所描绘的场景,自然是我们不希望发生的。那么能否有一种方法,可以让刀片服务器的网卡端口状态,可以随着刀箱交换机模块的上行端口的状态实现“联动”呢?下图描绘了我们最希望看到的没有网络“黑洞”愿景:



在上述场景中,我们假想,如果刀箱交换机模块A的2条上行链路全部失效,刀箱交换机模块A发现全部上行链路中断后,可以自动的阻断自己与刀片服务器相连接的交换机端口,使之变为“link-down”状态,那么服务器网卡1也将同步变为“link-down”状态。刀片服务器操作系统的teaming或bond服务组件,将监测到网卡1的状态变化,随时将网络流量全部转移至网卡2,网络流量进一步会由刀箱交换机模块B成功转发给核心交换机,这样就确保了刀片服务器网卡通讯正常,真正实现了原始方案中所设计的服务器网卡冗余的高可用功能,消除了网络“黑洞”现象。


下面我们将继续沿用Dell刀片系统的网络架构作为例子,来说明防范网络“黑洞”的方法。


在Dell M1000e刀片系统中目前可以配置下面几款刀片交换机模块:


Dell PowerConnect M6220(1GbE/10GbE)

Dell PowerConnect M6348(1GbE/10GbE)

Dell PowerConnect M8024-k(10GbE)

Dell Force10 MXL(10 GbE /40GbE)


在上面三款Dell PowerConnect系列的交换机中,我们设计了一种端口状态“联动”机制,被称之“连接依赖性(Link Dependency)”。我们可以在交换机配置中,通过建立一个“连接依赖性组”, 把具有依赖性关联的端口添加到这个“连接依赖性组”中,并指明端口之间的“联动”规则,即可实现端口智能联动策略。例如,在前面的场景中,我们可以把“刀箱交换机模块A”上和刀片服务器相连接的端口与和核心交换机连接的聚合端口(Port Channel)配置到同一个“连接依赖性组”中,并设定策略:当连接核心交换机的上行聚合端口(Port Channel)变为“link-down”时,所有与刀片服务器相连接的端口也强制变为“link-down”状态。这个配置策略一旦激活生效,上行聚合端口(Port Channel)的连接状态将持续处于被监视状态,一经发现其链路中断,Port Channel变为“link-down”,交换机与刀片服务器相连接的端口也会即可变为“link-down”,与刀箱交换机模块A连接的服务器网卡1自然也会同步变为“link-down”,服务器端teaming或bond将会检测到网卡1链路失效,并将网络流量完全切换至网卡2。为保证对称性,需要在刀箱交换机模块B上同样进行上述配置。这样,我们就彻底防止了潜在网络“黑洞”的出现,确保了网络的可用性。


PowerConnect交换机配置示例

在PowerConnect交换机的管理控制台上可以通过命令实现上述功能。配置示例如下:


console#configure

console(config)# interface range gigabitethernet 1/0/17-18

console(config-if)#channel-group 1 mode auto

console(config-if)#no shutdown

console(config-if)#exit

console(config)#interface port-channel 1

console(config-if)#switchport mode trunk  

console(config-if)#exit

console(config)#link-dependency group 1

console(config-linkDep-group-1)#add gigabitethernet 1/0/1-16  

console(config-linkDep-group-1)#depends-on port-channel 1

console(config-linkDep-group-1)#action down

console(config-linkDep-group-1)#exit

console(config)#


配置说明:首先将刀片交换机模块上的上行端口Gi1/0/17和Gi1/0/18聚合为端口通道Port- Channel1。随后创建“连接依赖性组”link-dependency group1,并将刀片交换机的所有内部端口(Gi1/0/1~Gi1/0/16)作为成员端口添加到连接依赖性组中。最后,指派成员端口所依赖的端口为Port- Channel1,设定联动策略为“action down”,意为如若上行端口状态为“link-down”,则所有内部端口也变为“link-down”。 


对于Dell PowerConnect系列交换机,除了CLI命令行访问方式,还为用户提供了Web操作方式,上述配置操作完全也可以通过Web管理界面来实现,操作更为简单便捷。


Dell  Force10 MXL万兆交换机配置示例

Dell  Force10 MXL万兆交换机模块也具备类似的功能。在Force10的术语中把这种连接依赖性关联机制称之为“上行链路失效监测(Uplink Failure Detection)”。PowerConnect上的“连接依赖性组(link-dependency group)”的概念,在Force10 MXL上被称为“上行链路状态组(uplink-state-group)”,其含义是一样的。


在Force10 MXL上的配置示例如下:


Force10# configure

Force10 (conf)#interface range TengigabitEthernet 0/1 -32

Force10 (conf-if-range-Te-0/1-32)#no shutdown

Force10 (conf-if-range-Te-0/1-32-lacp)#exit

Force10 (conf)#interface port-channel 1

Force10 (conf-if-po-1)#switchport

Force10 (conf-if-po-1)#no shutdown

Force10 (conf-if-po-1)#exit

Force10 (conf)#interface range TengigabitEthernet 0/49-50

Force10 (conf-if-range-Te-0/49-50)#no shutdown

Force10 (conf-if-range-Te-0/49-50)#switchport

Force10 (conf-if-range-Te-0/49-50)#port-channel-protocol lacp

Force10 (conf-if-range-Te-0/49-50-lacp)# port-channel 1 mode active

Force10 (conf-if-range-Te-0/49-50-lacp)#exit

… …

Force10 (conf)# uplink-state-group 1

Force10 (conf-uplink-state-group-1)# description #Sample Configuration for UFD

Force10 (conf-uplink-state-group-1)# upstream port-channel 1  

Force10 (conf-uplink-state-group-1)# downstream TengigabitEthernet 0/1 -32

Force10 (conf-uplink-state-group-1)# downstream disable links all

Force10 (conf-uplink-state-group-1)# downstream auto-recover

Force10 (conf-uplink-state-group-1)# exit


配置说明:首先将刀片Force10 MXL交换机模块上的上行端口Ten 0/49和Ten 0/50聚合为端口通道port-channel1。随后创建“上行链路状态组”uplink-state-group1,并将刀片Force10 MXL交换机的所有内部端口(Ten 0/1~Ten 0/32)作为下行端口(“downstream ”)添加到uplink-state-group1中。最后,再将上行链路 port-channel1作为上行端口类型(“upstream”)添加到uplink-state-group1中。设定联动策略为“downstream disable links all”和“downstream auto-recover”,意为如若上行链路状态为“link-down”,则所有下行端口也变为“link-down”;当上行链路恢复可用时,所有下行同步恢复可用。


工程师手札


以上示例中涉及到的交换机的配置命令以及更详细的使用说明,感兴趣的朋友可以参考Dell官方技术支持站点提供的《用户手册和用户指南》。通过support.dell.com站点,您只需选择相应的交换机产品型号,在该产品的技术支持页面中可以选择直接在线阅览或免费下载。


本文所探讨的 “网络黑洞”问题,是一个十分常见却容易被忽视的问题。事实上,未经充分的链路切换测试演练的服务器网络环境一旦交付上线投产,事前是很难发现这类潜在隐患的。通常都是在投产后发现了网络连通性问题做故障排查时,才会略见端倪,而此时极有可能已经因此引发了计划外生产业务中断事件,代价高昂。所以,仅有服务器、网络链路的物理冗余的前期设计是远远不够的,必须辅之以全面优化的部署服务才能确保我们所交付的IT基础架构具备真正意义上的高可用。


谨以此文与朋友们分享,在此感谢大家一直以来对Dell的支持和关注!


在线咨询
项目咨询
采购咨询专线400-884-6610
订阅偏好享优先通知
热门评论
暂无相关评论
删除回复
回复
删除回复
更多回复
查看全部条评论
{{dataFromApi ? '您是否在找' : '其他企业都在看'}}
{{item.slogan}}
{{item.slogan}}
{{item.title}}
咨询客服获取特惠价{{item.sale}}{{item.price}}{{item.sale}} {{item.price}}
项目咨询
发表评论...
  • 在线客服
    联系客服
    (工作日 08:30-17:30)
  • 项目咨询
  • 采购咨询专线
    400-884-6610
    (工作日 08:30-17:30)
  • 售后咨询专线
    7*24小时客户支持
    400-886-8616
    400-886-8618
取消发送
取消发送
热门评论
删除回复
回复
删除回复
更多回复
暂无相关评论
发表评论...
发送
王浩
删除该评论,是否确认操作?
取消
确认

参与问卷提交即有机会成为幸运用户,

赢取精彩礼品一份,寻找幸运的你,快来参与吧!

立即参与>>
5秒后自动关闭
取消
最近搜索
    热门搜索
    • AI PC
    • 2025新品
    • Dell Pro 笔记本
    • Dell Pro 台式机
    • Dell Pro Max 工作站
    • Dell Pro 显示器
    • 17G 服务器
    • 数据存储
    • 数据保护

    如果您对当前页面内容感兴趣,

    可填写“项目咨询单”,

    进行专业咨询及帮助。

    戴尔企采中心
    戴尔专线客服
    暑期大放价,焕新3.7折起!注册享免费抽奖、0元试用、千元好礼、万元服务、资产回收等。详情咨询在线客服或拨打400-884-6610
    请在这里输入内容
    发送
    管理您的Cookie
    戴尔使用不同类型的 Cookie 来优化您的体验并启用某些网站功能,改善您的整体网页浏览体验。请注意,如果阻止 Cookie,则可能会影响您的网站体验,并可能对我们可提供的服务或功能造成影响。
    基本

    允许用户在我们的网站上移动以及提供访问诸如您的个人资料和购买、登录凭据以及网站其他区域等功能的访问权限。

    营销

    用于了解我们网站上的用户行为,并展示与您的兴趣更相关的广告。

    统计

    通过收集和报告信息,帮助我们了解访问者如何与我们的网站互动。

    * 点击确认按钮或关闭Cookie弹窗代表您已同意以上内容。

    拒绝
    确认
    取消
    确认
    请确认您的邮箱地址,
    我们会发送下载链接至您的邮箱。
    请填写正确邮箱
    您的企业近期是否有采购 IT 产品的计划?
    请选择
    提交并获取下载链接
    提交成功,下载链接已发送到您的邮箱,
    请查收!

    戴尔发布针对AI领域服务器产品

    还剩2页未读

    图片标题

    戴尔发布针对AI领域服务器产品

    批量议价
    填写您的感兴趣的产品及个人信息,提交成功后会有专人与您沟通,为您提供专属底价。
    OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020
    为通用型商务应用程序设计的可靠为通用型商务应用程序设计的可靠为通用型商务应用程序设计的可靠
    型号

    8G 1TB SAS H330 DVDRW 495W

    参考价格
    6499.006499.00咨询客服获取特惠价
    意向购买数量
    1
    * 公司名称
    请输入公司名称
    * 姓名
    请输入姓名
    * 手机
    请输入手机
    * 邮箱
    请输入邮箱
    * 需求描述
    请选择
    采购专线
    联系客服
    提交
    *验证码无效
    确认
    全新PowerEdge DSS8840
    DSS8440是一款2路4U服务器,旨在为机器学习应用提供极高的性能,配备多达10个加速器
    PowerEdge DSS840 型号1
    PowerEdge DSS840 型号2

    恭喜您,秒杀成功!

    后续工作人员会与您进行联系

    抱歉,您没有抢到!

    您还可以参与其他产品的秒杀活动哦

    请输入兑换码

    PowerVault ME4012
    限时免费升级 / 提速不加价 / 性能秒提7倍
    限时促销
    5秒后自动关闭

    感谢您的报名

    返回首页
    请输入验证口令
    复制以下链接观看视频
    复制
    Toast 内容
    补全信息
    请补全您的身份信息
    * 姓名
    请输入姓名
    * 企业邮箱
    请输入企业邮箱
    * 公司全称
    请输入公司全称
    提交
    请准确填写您的邮箱
    完整报告即时发送到您的邮箱
    * 姓名
    请输入姓名
    * 企业邮箱
    请输入企业邮箱
    * 公司全称
    请输入公司全称
    提交
    请选择标签,将有助于提供精准服务
    您对哪类产品感兴趣?
    • 云
    您将应用于哪个领域?
    • 大数据
    • 软件定义
    请输入您的企业邮箱与手机号,方便后续发送资料
    企业邮箱

    请输入企业邮箱

    手机号

    请输入手机号

    订阅成功

    我们将每月通过邮箱发送资料报告发给您

    成功图片
    关闭
    文章标题
    文章标题
    文章标题
    文章标题
    订阅您感兴趣的内容,我们将每月通过邮箱发送资料报告发给您
    开启订阅
    长按扫码关注戴尔企采网
    了解更多企采会员福利
    长按识别跳转小程序
    手机号绑定
    手机icon图标

    请输入手机号

    验证码icon图标
    获取验证码

    请输入验证码

    绑定手机号
    绑定手机号的三大理由
    1.网信办规定,互联网注册用户要提供基于移动电话号码等的真实身份。
    2.微信授权登录出现故障时,仍用手机号顺利登录,会员各项权益及活动不受影响。
    3.绑定手机号即可享受免费抽奖、0元试用、积分兑换好礼等会员权益。
    loading请稍后...
    订阅弹层
    订阅表单弹层
    邮箱:
    姓名:
    订阅成功弹层
    {{form.textBtnText}}
    {{form.textBtnText}}
    {{form.subBtnText}}
    去注册
    {{form.textBtnText}}
    获取“戴尔资产报告”
    请提供设备使用方的相关信息,以免影响后续保修
    立即获取
    获取“戴尔资产报告”
    您已提交成功,请您注意查收邮件,“戴尔资产报告”将在2个工作日以邮件的形式发送给您
    查看设备保修情况
    注册有礼
    去认证