随着工业4.0大数据应用规模的迅速增长,我们会遇到越来越多的数据风暴问题。
【问题描述】
某F&B行业大客户的生产线控制系统采用Ethernet-IP工业以太网通讯。稳定运行两年后的某一天,现场设备与PLC主站之间的Ethernet-IP数据交换,突然间全部断线了!为什么会这样?
【常规诊断】
检查硬件:从宏观与细节两方面观察测试,该Ethernet网络结构架设都是正常的;
检查软件:Rockwell上位机控制的Logix程序与现场设备的参数设定都未发生过改动;
检查固件:PLC上位机、现场设备、交换机的固件版本也都没有改动。似乎一切都是OK的?
【深入诊断】
请注意故障现象是大批量以太网设备同时断线。这就好像一个网吧里所有电脑突然全部断网,那么有经验的网管就知道了,问题一定出在这个网吧的交换机上,需要逐个排查交换机柜内的所有网络端口。工业现场也是如此,这种问题也是锁定在现场交换机上,而且网络端口数量比计算机房交换机柜内的少很多,排查工作量更小。
但是这并不意味着情况就更简单:因为仔细观察现场的交换机,我们发现端口上不仅连接了工业现场设备,并且还连接了企业管理ERP数据网线。拔下ERP数据网线后再观察,所有这些工业现场设备的Ethernet-IP通讯立即恢复正常,由此可断定IT以太网域对工业以太网域造成了干扰,引发了网络风暴。
【深入分析】
那为什么之前的两年内没有出现这样的情况?这就要用发展的眼光看问题了。
两年前该项目刚设计出来并调试的时候,基于成本控制的考虑,以及现场网络简单的实际情况,一个交换机混合两种性质网络进行数据交换的做法,那时候看起来是可行能用的。然而这种网络构建方案其实是不规范的,因为正规的做法是配置两个Ethernet-IP主站模块,一个连接企业管理ERP交换机拓扑,另一个连接现场工业以太网设备交换机拓扑。
而设备投产两年后发生网络风暴的原因,很可能是由于:
1、工业以太网比IT以太网要求更高的实时性能,对于Ethernet数据波动更加敏感;
2、企业管理ERP系统发生变动而变复杂后,发送到生产现场的数据量增加,超出了该台现场交换机的数据流量极限,造成数据波动,而实时性要求更高的Ethernet-IP通讯自然更早地受此影响而中断了通讯。
【解决方案】
短期措施:由于企业管理ERP数据不参与生产系统的具体控制,为了应急可以先脱开ERP网线,进行离线生产,先确保产品能够正常生产并出货。
长期措施:1、升级现场交换机,换成更大容量的、Ethernet-IP专用的管理型交换机;2、在上位机PLC模组内再增加Ethernet-IP通讯模块,把控制网络分为外网与内网,外网用于企业级数据交换,内网用于实时工业以太网通讯。这样能彻底隔开ERP信息网对现场工业以太网设备的影响。但是成本较高。
还有一种方案三有待实验,如下图所示,以 PROFINET IO 协议为例,常规以太网设备与工业以太网设备,不能接入同一个交换机上的端口;我们需要两个管理型PROFINET专用交换机,并且将常规的以太网设备集中连接到靠近PLC的那个交换机端口上:
(转载)