1、故障现象
山东农业大学校园网核心交换机为2003年采购的Cisco 6509交换机,主要配置为:二代引擎、WS-X6500-SFM2、WS-X6816-GBIC(含DFC)线卡两块、WS-X6516-GE-TX一块。出口防火墙连接在二代引擎的GBIC上,校内楼宇接入使用WS-X6816-GBIC,服务器连接在WS-X6516-GE-TX上。校园网出口为教育网155M、本地网通1G。
该结构正常运行数年,但前段时间出现不稳定现象,主要为:校内用户访问本地服务器正常,但访问外网却时断时通,且为不规则分布,在同一VLAN中,有的用户不通时,其他用户能正常上网,且在各个VLAN中出现。具体到单点上,每天断网频繁,等2-3分钟后自动恢复正常上网。6509系统日志上频繁出现以下提示:
TitanIsrMainHandler 38
TiIsrSpanCo 11
TiIsrPktCon 40
上网查询该日志,并无详细原因说明,在排除了ARP欺骗、病毒等原因后,初步确定为硬件不稳定所致。
2、 故障排查
因我校的两个WS-X6816-GBIC线卡上均含DFC子模块,分别插6509的2、3槽上,使用attach 命令分别进入两个线卡,查询日志发现以上错误仅在3槽的线卡上出现,初步断定3槽上的WS-X6816-GBIC线卡出现故障。
仔细分析故障现象发现,经常出现断网的接入点均使用该线卡接入,与以上分析吻合。
为证实这一分析,我们将两个线卡上的部分接入点进行了交换,经观察,故障点随交换发生变化,凡接入到该线卡上的接入点总是出现断网现象。随后,我们将连接出口防火墙的端口从引擎上调至该线卡上,发现连接该线卡的接入点断网频率明显减少,连接另外一块线卡的接入点断网频率增加。
通过以上测试,最终确定插在3槽上的线卡出现故障,运行不稳定,造成与主机及其它模块协同工作出现问题,引起网络出现上述现象。
自厂家购回相同型号、配置的线卡及DFC子模块,更换后,故障排除。
3、故障原因
Cisco 6500体系结构
Supervisor II在安装SFM(交叉交换矩阵)后,SFM为每个线路提供8Gbit/s的带宽,可实现高达256Gbps的交换矩阵连接,210Mpps,支持第三层路由协议。
安装含有DFC子模块的支持架构的线路卡后,DFC作为子板上的PFC2 和MSFC2,可以以相同的速度提供与supervisor完全相同的转发决策,它的本地交换性能可以达到15Mpps 以上。支持DFC的线卡可以在本地制定传送决策。含有DFC子卡的线卡上,两个端口之间交换的分组将会直接通过本地传送逻辑进行传送。含有DFC子卡的两个线卡间的流量将会被本地交换或者利用本地传送逻辑在架构中传输,不需要通过监控引擎进行集中交换。如果系统中混有传统的和支持架构的线卡,那么这两者之间的流量将由监控引擎进行集中交换。
故障原因分析
因我校出口连接在二代引擎的GBIC上,由以上结构可知,2槽上的接入点访问外网正常。由于3槽上线卡芯片的故障,导致与引擎之间的数据传输不稳定,出现时断时通现象。
将连接出口防火墙的端口从引擎上调至该线卡上,本线卡上的接入点访问外网直接通过本地总线进行交换,不受故障芯片的影响,因此本线卡上的接入点断网频率明显减少,连接另外一块线卡的接入点受故障芯片的影响断网频率增加。
4、总结
该故障为连接总线或交换矩阵的ASIC芯片工作不稳定所致,十分隐蔽,较难排查,若是单纯的硬件损坏,现象明显,排查起来相对容易。由于此类故障较少遇到,网上几乎找不到案例,因此整理成文,以期给大家提供借鉴。
来源:《中国教育网络》2010年4月刊
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。