2.1.3.1 现象
第3次公用系统服务器死机现象与前2次相同,排除了上述原因后,结束服务器内相关进程重新启动服务器后正常。所以认为死机原因为相关进程内部数据设置错误,不能满足现场正常运行条件.相关服务器进程发生数据溢出,最终导致服务器运算速度变慢并死机。根据分析。最终经西门子公司远程登录系统检查。发现服务器alarm container(AC)进程设置容量为128 Mbytes,而调试过程中报警点比较多,容量为145 Mbytes,已经超过128 Mbytes。
2.1.3.2 解决方法
按照德国西门子建议将AC进程容量修改为256 Mbytes。但本次修改未能根本解决系统死机的问题。
2.1.4 第4次死机
2.1.4.1 现象
第4次DCS系统再次发生通信故障,故障现象为机组各个AP不定时发生通信故障,故障过程时间不等,一般为2~10 S,最长时间为4 rain,之后系统恢复正常。在故障期间,DCS系统失去对现场设备的监视和操作功能,并且不能保证保护联锁的正确动作。经过现场分析,造成的原因仍是内部设定问题,发现服务器CC进程容量为128 Mbytes(容量不足),造成服务器运算速度变慢。
2.1.4.2 解决方法
按照德国西门子建议将CC进程容量修改为256 Mbytes。但本次修改未能彻底解决系统死机问题。
2.1.5 第5次死机
2.1.5.1 现象
第5次系统死机现象为DCS10一l机柜AB、AC两排卡件中所有DI卡件系统认为未安装,导致该机柜控制的现场设备失去控制,即定子冷却水泵和C给水泵油泵发生自启停现象。经过分析,可能是更换该机柜内卡件未复位造成的,也有可能为该AP外供电方式模拟量信号大范围跳动导致AP运算变慢造成的。
2.1.5.2 解决方法
对机柜内更换任意卡件时均进行复位处理后,该问题再未发生。
2.1.6 第6次死机
2.1.6.1 现象
第6次系统发生严重死机,现象为系统报警窗故障,且画面切换迟缓,画面显示点均为坏点,操作员画面无法对设备监视操控。当时的处理方法在服务器上重启AC进程后系统恢复正常。几天后DCS再次发生严重的死机事故,所有操作员站和工程师站全部失去功能。经过观察,当时系统服务器个别进程超出其被分配的动态内存空间,由于这些进程的溢出导致服务器CPU负荷率大幅度上升,系统处理数据的过程变得极其缓慢,最终导致系统瘫痪。经重新启动服务器后,系统恢复正常,但未能从根本上解决该问题。
2.1.6.2 解决方法
经过以上2次事故.现场决定暂时停止机组试运。针对以上问题,根据以往调试经验,提出了如下解决方法:
(1)对外供电模拟量输入信号增加隔离器,保证信号的稳定性,大幅度减少由于模拟量信号剧烈波动造成对系统资源的占用;
(2)改变部分信号、逻辑系统采样时间和分辨率,减少系统负荷;
(3)限制操作员站和工程师站同时打开画面的数量,减少系统负荷;
(4)对系统报警点进行整理,删除无用的报警点,优化报警复位功能,减少系统负荷。
实施以上各项措施后,各个进程占用容量大幅度减少,如AC进程由最高的312 Mbytes减少到120 Mbytes左右。根据德国西门子的意见又对系统内5个进程的容量进行了扩充,随后对机组进行了点火启动,DCS未再发生严重的死机、系统通信阻塞中断等现象,并顺利完成吹管。寄存器参数调整为:AC、CC为384 Mbytes (原始默认值为128Mbytes),ARC 196 Mbytes (原始默认值为64Mbytes),RC 128 Mbytes (原始默认值为64Mbytes),PDS 256 Mbytes (原始默认值为128Mbytes)。
德国西门子总部T-3000开发组对国华准电现场数据进行分析研究,并针对本工程对系统提出的要求,专门编写了系统软件升级包,对3‘号、4号机组DCS进行了软件升级,升级后直到2台机组168h结束,该系统再未发生系统软件死机事故。
2.2 调试期间系统其他故障原因分析以及处理
2.2.1 3号、4号机组DCS系统功能块设计错误
发现3号机组在冲车阶段DCS系统部分自动控制系统的PID调节器工作不正常,调节器在DCS内部被集成为CCTRL功能块。该功能块具备PID计算以及操作器的功能。该问题具体表现为:投入自动后一段时间,发生调节器输出大幅度变动状况,变动范围为0~100%,如图1所示。图中黑色部分为PID输入偏差,该数据几乎不变;蓝色为PID调节器输出.瞬间突增至100% ;红色为执行机构反馈跟随PID指令。以上现象主要发生在轴封的3套自动中。随后对这3套自动逻辑进行了检查,根据历史趋势,发现以上现象发生时PID调节器输入偏差几乎不变.且自动控制原理十分简单,没有微分以及前馈等作用,从控制原理来讲不应发生以上现象,所以判断为该PID功能块设计存在问题。
通知南京西门子现场服务人员进行处理,最终确认由于PID调节器微分环节设计有问题导致输出突跳。之后德国西门子对该功能块进行了在线升级。升级后该问题再未发生。
2.2.2 DCS系统DI通道的问题
在调试过程中发现每个开关量输入通道(DI)都配有1个0.2 A的玻璃管保险,在机组运行过程中如果保险损坏且不能被及时发现,重要的保护联锁信号将不能传递到DCS,造成保护拒动,给机组设备带来灾难性的后果。发现这个安全隐患后,调试人员将2台机组共400余块DI卡件FIM卡进行了更换,对所有DI卡件通道重新进行了传动。该卡件需要进行经常性巡视,观察卡件内保险报警显示灯,一经发现有损坏,立即进行更换,保证机组在运行过程中不发生保护拒动。
2.2.3 模拟量信号隔离问题及处理
在调试中发现,外供电模拟量输入信号与DCS的AI卡件不匹配,使得测量信号在大范围内突跳,无法使用,且严重影响该信号所在机柜内CPU的运算速度,导致系统运算速度变慢,机柜内其他正常信号采集不到,导致DCS系统机柜内CPU死机,失去对就地设备的控制,使就地设备发生自启停现象。该问题还大量占用系统资源,DCS系统AC等进程占用容量急剧增加,导致系统死机不可用。依据以往调试经验,在DCS系统AI卡件输入侧加入了信号隔离器,2台机组共增加双通道隔离器322个.彻底消除了该缺陷。
3 调试效果
在准电调试过程中,通过对西门子公司新研制的DCS系统的优化,实现了机组168h结束时,热控系统各项指标均达到优良,DCS系统能完全适应现场应用要求。实现了2台机组168h结束后连续稳定运行100d以上。
参考文献
[1]罗颖坚.西门子TELEPERM XP分散控制系统在台山电厂的设计应用【J】.广东电力,2006,(4).
[2J西门子发布分散控制系统SPPA T-300qZ].中国电力,2006,(1O)
(转载)