在数据中心水冷冷冻水系统架构中,冷水机组是维持IT机房温度稳定的核心设备,由于数据中心设计负荷较高,IT设备负载波动相对较小,一般多采用离心式冷水机组(以下简称“离心机”)进行制冷。基于数据中心全年制冷的特点,业主对于离心机运行的连续性、安全性及稳定性提出了较高的要求,任何故障或外部事件引起的停机都可能导致IT设备高温、过热甚至宕机。本文将从以下几个方面着手,分析离心机的常见故障及一般处理办法,希望能够在现场设备遇到问题的时候,可以支持到运维人员。
本文主要以数据中心多采用的离心式冷水机组为研究对象进行陈述。
关键词:水冷冷冻水系统;离心机;冷凝压力;蒸发压力;压差
离心式冷水机组属于蒸汽压缩式制冷的一类大型设备,经过压缩机压缩后的高温高压制冷剂气体沿着排气管路进入冷凝器,在冷凝器内,制冷剂被来自于冷却装置(一般为冷却塔)的冷却水,冷却成中温高压的制冷剂饱和液体,再经过“过冷”环节后进入节流机构进行节流、降压,之后,包含少量闪发气体的低温低压液态制冷剂,流入蒸发器,在蒸发器内,液态制冷剂吸收载冷剂(一般为冷冻水)的热量后,变成低温低压的饱和气体,再沿着吸气管路回到压缩机,继续被压缩,完成一个循环,周而复始,进行制冷。
▲ 蒸汽压缩式制冷原理
从上图可以看出,离心机的正常运转一般离不开两个重要的辅助设备,一个是冷却塔,它主要是对冷凝器中与制冷剂进行换热的冷却水进行降温,进而实现制冷剂从气体到液体的转变;另外一个设备是来自冷冻系统的冷冻水精密空调,它的作用主要是用离心机制取的低温冷冻水在其内部与空气进行换热,从而降低机房的温度;两个设备都是通过大量的管道、阀门、其他附属设备及组件与对应的换热器连接起来,水冷冷冻水系统在运行的过程中,任何一个阀门、一段管道及其组件发生异常,都有可能影响系统及主机的正常运转。接下来,我们将通过常见故障的列举,对项目现场可能发生的故障或事件进行分析,找到原因,进而进行告警处理。
01 离心机常见故障及原因分析
水冷冷冻水系统常见故障多与“水”相关,因为水流量不足或者水流不畅、水温过低或过高、脏污,甚至因为水体硬度过高导致的换热器结垢都会引起主机的故障及告警,一般常见的故障主要涉及以下四个方面:
冷凝温度或冷凝压力过高-告警
吸气压力或蒸发压力过低-告警
冷凝器或蒸发器水流量异常-告警
间歇性停机后无法正常启动-故障
以上故障或告警在离心机的运行过程中经常出现,我们从原理出发,结合离心机的基本结构,针对性的进行故障分析,寻找引起这些故障的原因,进而在实际应用中用最短的时间来处理这些故障或告警。
1)冷凝温度或冷凝压力过高告警
“冷凝温度”通俗的讲是指在冷凝器内,气态制冷剂放热后变成液态时的瞬时温度,与该温度对应的压力称为“冷凝压力”。一般来讲,壳管式冷凝器管程介质是水,壳程介质为制冷剂,在冷凝器内制冷剂向水放热,自身凝结为饱和液体,水因为吸收了制冷剂的热量,温度升高,被送往冷却塔进行散热降温,当冷却水水流量不足或水温过高的时候,其与制冷剂的传热必然受到影响,严重时就会导致冷凝温度或冷凝压力过高,进而产生告警。那么,哪些原因会造成水流量不足或者水温过高呢?我们逐一进行分析:
(1) 冷却水流量不足
可能原因:
1、手动阀门未完全打开或电动阀开阀没有执行到位;
2、管道中Y型过滤器脏堵或杂物堆积、缠绕;
3、管件及连接处(如法兰、变径、弯头等)异物堵塞;
4、冷却水泵故障或频率过低,水压不足;
5、冷却系统缺水(冷却塔补水不及或积水盘泄漏等)或者系统进气;
6、冷凝器进水封头内杂质沉积(例如风化的填料等)或杂物堵塞;
解决对策:
一般而言,因在水流量不足而引起冷凝温度或冷凝压力过高时,可以根据以上的可能原因逐一去排除,不同运维场地有不同的实际情况,对于冷凝温度或冷凝压力过高的这种现象,应该多从水泵运转频率、Y型过滤器脏污和冷却塔是否缺水三个方向去排查原因,日常维护过程中也要及时对Y型过滤器进行检查或拆解清洗,对于冷却塔的两路补水进行压力测试,巡检时也应对补水压力进行确认等。
多项目案例表明,开式冷却水系统,经常在项目机电安装阶段,不同类型的杂物从冷却塔进入冷却水系统,沉积在泵头、Y型过滤器、换热器封头等位置,堵塞管道和附件,为后期运维埋下隐患,所以在项目验收阶段就应该及时介入,进行风险排查,及时处理异常。
(2) 冷却水温度过高
可能原因:
1、夏季室外干球温度过高,老旧冷却塔降温能力受限;
2、冷却塔风机故障或风机转速不够;
3、冷却塔填料坍塌、倒伏造成填料表面积严重缩小;
4、布水器堵塞或其他原因造成的布水不均;

5、夏季高温条件下,冷却水供、回水管之间的联通阀未完全关闭;
解决对策:
对于第1点,应急情况下,可以通过向冷却塔内快速补充自来水的方式进行降温,这个有点像风冷冷凝器在夏季高温时段使用水喷淋对盘管降温,根本解决方法还是对老旧冷却塔及时进行保养、维护改造,例如更换填料等。
对于2、3、4等原因,需要在日常维护中及时发现异常,对于风机运转的参数要进行比对,对于轴承运转情况要及时评估(使用时长、负载情况、维护及时性以及厂家推荐更换周期等)、更换,定期加注润滑脂(标准和周期要合理),对于皮带的维护重点在于日常检查,例如开裂、磨损、张紧度等状态,需要及时评估,必要时进行更换;填料应该及时进行修复和局部更换,保持其完整,对于风化、破损较多的冷却塔填料,建议整体更换,防止造成进一步的系统级损害;对于第5点,在巡检应及时检查确认,涉及施工过程中关闭的阀门,随工人员需要在施工结束后,进行各阀门的状态确认及恢复。
(3) 冷凝器内部传热较差
可能原因:
1、铜管内部结垢或脏污附着严重
水冷冷凝器一般多为壳管式换热器,壳体内部是由铜管束构成的复杂空间(图-1),载冷剂(一般为冷却水)在铜管内流动,制冷剂在铜管外部和冷凝器壳体之间流动;因为冷却水系统是一个开式系统,外部的粉尘、杂质、柳絮、杂物等会沿着冷却塔进入冷却水系统,加之冷却水补水一般多为自来水,水体硬度相对较高(水质标准见图-3),综上两个原因,设备运行到一定时长,冷凝器铜管内壁就会形成水垢或脏污,即便在冷却水流量充足、水温达标甚至较低的情形下,这层水垢或脏污也会严重影响制冷剂和冷却水的传热。有研究显示,壳管式冷凝器内,当铜管内部水垢达到0.3mm时,介质之间的传热量下降25%;当这个厚度达到0.9mm时,对应传热量下降至原来的50%(图-2)。当制冷剂的热量无法有效传递给冷却水时,壳程内就会造成热量堆积,我们知道,当温度上升时,压力也会同步升高,所以,当冷凝器铜管结垢到一定程度时,也会造成冷凝压力和冷凝温度过高的告警。
图-1 壳管式冷凝器端剖面示例
图-2 冷凝器铜管结构与传热关系
图-3 JB/T3355 冷却水水质条件
2、不凝性气体和制冷剂充注量因素
可能有一部分运维人员会有这样的疑问,不是经常看到有些资料讲冷凝压力过高还有“系统存在不凝性气体”和“制冷剂充注过多”两个原因么?其实,熟悉冷水机组的运维人员基本都清楚,在设备调试阶段,制冷剂的充注量就已经由厂家的交付工程师调整到一个合理的区间(一般冬、夏各调一次);系统不凝性气体(这里不包含特灵的负压离心机组)也会由厂家工程师进行一次性排出操作,所以我们在冷水机组日常运行过程中,对于冷凝温度或冷凝压力过高的告警原因分析,基本不会涉及制冷剂充注量过多和不凝性气体的分析与讨论。
注:不凝性气体主要包含空气、氢气、氮气及润滑油蒸气等其中的一种或多种,存在于制冷系统循环过程中且无法随制冷剂冷凝 ;这类气体会聚集在冷凝器或贮液器中,导致冷凝压力与温度异常升高,增加压缩机功耗并降低制冷效率 。
工程实践表明,系统泄漏或润滑油碳化是其主要来源,处理措施包括充注前抽真空与运行中定期排气。
2)蒸发压力(吸气压力)或蒸发温度过低告警
“蒸发温度”通俗的讲是指在蒸发器内,液态制冷剂吸热后变成气态时的瞬时温度,这个温度对应的压力称为“蒸发压力”;与上文提及冷凝器类似,蒸发器(离心机一般多采用满液式蒸发器)管程介质是冷冻水,壳程介质为制冷剂,在蒸发器内制冷剂吸收水的热量,其在低压状态下蒸发成饱和气体,冷冻水(有的文献称空调水)因为向制冷剂释放了的热量,自身温度降低,被送往末端精密空调进行制冷,当冷冻水流量不足或者水温过低的时候,其与制冷剂的传热必然受到影响,冷媒的冷量无法被完全带走,严重时就会导致蒸发温度和蒸发压力过低,进而产生告警。
另外,从满液式蒸发器的功能角度出发,我们也会得出另外一个结论。满液式蒸发器除了最重要的传热功能以外,还兼顾系统回油的作用,在蒸汽压缩式制冷系统中,冷冻机油通常会随制冷剂沿着空调“四大件”进行循环流动,最后在蒸发器内进行聚集,因为密度较小,冷冻机油通常会漂浮在制冷剂液面上,利用系统的高、低压差,冷冻机油会从蒸发器回油口经引射阀组件回到压缩机或者外置油箱。当回油管道堵塞或蒸发器内制冷剂液位较低时(油位低于回油口),冷冻机油便无法正常回到外置油箱内,进而在蒸发器内形成堆积,一部分冷冻机油会附着在蒸发器铜管表面形成油膜,油膜阻止管程的冷冻水与壳程的制冷剂进行传热,久而久之便会造成冷量无法被带走,蒸发器内温度越来越低,最终蒸发压力过低告警。
(1) 冷冻水流量不足
导致冷冻水流量不足的原因,大体上与上文介绍冷却水流量不足的原因是相似的,可能原因一般是水泵的转速不够、故障或各种原因的停泵;沿程管道构件(如法兰、变径、弯头等)是否存在异物堵塞或Y型过滤器堵塞;机械或电动阀未执行到位;末端冷冻水精密空调短时间内大批量关闭等。
现场处理,只要沿着以上罗列的原因进行逐一排查,即可排除大部分的问题,对于阀门的开关程度需要在日常巡视中着重检查确认;Y型过滤器只要严格按照周期进行维护,一般很少会造成水流异常;还有一种情况,因为项目现场电网波动造成的水泵停泵,引起的水流异常多有出现,所以在遇到此类情况时,及时恢复水泵运转,保持关注即可。
(2) 制冷剂泄漏
冷水机组运行过程中,偶尔也会出现一些异常振动。例如,因制冷剂不足造成的液管振动、机组发生喘振或设备基础松动、损坏等原因形成的各种振动都可能会造成冷水机组铜管焊接位置及螺纹连接处、传感器接头处、膨胀阀等位置的泄漏,同时因为设备运行维护原因,蒸发器和冷凝器在清洗过程也会有破损泄漏的风险。所以,日常巡检过程中要仔细检查设备表面尤其是铜管表面是否有油迹,对于疑似泄漏的位置要用卤素检漏仪(或肥皂水)进行漏点检查,及时发现并进行漏点处理;对于换热器清洗维护,要在第一时间进行系统清洗验收及压力检查确认,防止因设备清洗造成的内漏,影响设备运行。
(3) 蒸发器内制冷剂量不足(节流机构故障)或过量
从蒸汽压缩式制冷原理可以看出,蒸发器内的(制冷剂)供液量主要受制于节流机构(膨胀阀)的开启度,当膨胀阀出现故障时,例如,无法正常开启或开度不足,就会导致单位时间内进入蒸发器的液态制冷剂不够,冷媒的快速蒸发导致蒸发器内的压力急剧下降,同时又没有足够的制冷剂供给,必然会导致蒸发器的压力迅速下降,当下降到一定范围时(某品牌离心机蒸发压力下限193Kpa)就会出现蒸发压力过低告警。
制冷剂过量的情况也会导致蒸发器内压力的降低。这一点,一方面与冷媒的整体充注量有关,一方面与蒸发器供液量有关;整体充注量过多的因素上文已经说明,无需赘述。蒸发器供液量受膨胀阀开度影响,单位时间内供液量太大,导致冷冻水无法充分吸收这些冷量,进而造成制冷剂在蒸发器内堆积,必然会造成蒸发器内温度降低,进而蒸发压力也会随之降低,这种情况持续发生就会造成蒸发压力过低告警,造成这个故障的原因在于膨胀阀的自身结构和动作机理,运维人员一般无法处理,需要借助厂家工程师进行排查处理。
(4) 蒸发器内铜管表面结垢或脏污严重
造成蒸发压力或蒸发温度过低的另外一个主要原因就是蒸发器内铜管内壁结垢或脏污(细菌代谢产物、粘泥、微生物残骸等),蒸发器内部结构与冷凝器大体相似,载冷剂在管程内流动,即便当前冷冻水多经过软化处理,换热器内部结垢可以延缓,但最终依然会结垢,这个时长基于冷冻水的软化程度可以在3-5年甚至更久;同时,因为水质原因,很多微生物也会随着水流附着在水管道及铜管内壁,久而久之,其代谢物、分泌物、死亡后的残骸等等也会导致蒸发器铜管内壁积污、粘泥堆积;冷水机组的冷冻机油随着制冷剂在系统四大件内进行循环,满液式蒸发器因为要承担“回油”任务,系统出现回油不畅时,在蒸发器内部铜管表面,也会造成油膜附着,这层油膜挡在制冷剂和冷冻水之间,会严重影响传热,直接造成制冷剂的冷量无法被冷冻水及时带走,冷量堆积到一定程度就会造成蒸发压力过低告警。
3)冷凝器或蒸发器水流量异常告警
离心机为了保障运行安全,厂家会在蒸发器和冷凝器进出水口位置设置压差流量开关(有的品牌机型会设置靶流开关进行替代),压差流量开关通过检测蒸发器或冷凝器的进、出水压差来判断单位时间通过换热器的水流量是否满足需求,冷却水因为水质的原因,结垢的概率较高,周期相对较短,一般使用3-5年,因为结垢的原因,压差流量开关的导管也会堵塞,当水垢积累到一定程度,堵塞造成导管横截面积急剧缩小,压差流量开关就无法正常检测到水压差,这个时候机组就会产生水流异常的告警,没有经验的运维人员可能去找水泵、过滤器、阀门等原因,往往会忽略压差流量开关的问题。
图-4 压差流量开关
图-5 压差流量开关工作原理示意
蒸发器对应的压差流量开关也会遭遇同样的问题,因为冷冻水自身水质较冷却水稍好一些,所以出现导管堵塞的频率会降低一些。
一般的处理办法,是通过敲击导管本体使内部水垢破碎,再用压缩空气或者其他加压气体(如氮气或少量气态制冷剂)进行吹扫,来达到导管内部清洁的目的。需要注意的是,一些品牌的压差流量开关信号采集是有源的,有24V或115V,运维人员在拆卸维护的时候要注意安全防护,佩戴好必要的PPE。
其他引起系统水流量异常的原因还包括:采集流量信号的传感器误动作,尤其是设备采用靶式流量开关时,常因开关自身故障、信号线虚接或者动作原件卡滞的原因,造成误告警等,这就需要运维人员在维护过程中做到有效、及时、专业的评价,规避此类风险的发生。
4)间歇性停机后无法正常启动故障
北方数据中心的水冷冷冻水系统一般多采用“电制冷模式——半自由模式——自然冷模式”进行(节能)循环运行,以达到利用自然冷却实现节能的目的;在长达近半年的“半自由及自然冷模式”运行工况后,冷水机组一直处于待机或者停机状态,重新开启机组进行制冷时,基本在4-5月份期间;初次启动的时候经常会遇到一个告警,叫“油压差过低”或“压差无法建立”,导致冷水机组在启动短时间内就出现告警停机,前文讲过,目前数据中心多采用离心机(满液式蒸发器)进行制冷,满液式机组又多采用压差回油的逻辑,主油路依靠油泵把储油箱的冷冻机油输送至压缩机内部,副油路依靠高、低压差将临时存储在蒸发器内的机油通过引射组件(见图-6)送回储油箱(外置油箱),当长时间不开机后,在4-5月份这种低温环境下(室外干球温度较低)开机的时候,因为冷却水温度较低,冷凝压力短时间内无法提升,就会造成高、低压差较小,达不到引射回油的压差要求,冷冻机油无法从蒸发器内回到储油箱(见图-7),就有可能形成压缩机低油位的情况,进而会导致压缩机润滑不良,存在损毁风险。
图-6 引射组件原理
图-7 某品牌离心机油循环原理
一般在出现这种告警的时候,处理的方式有两种,第一种是关闭或关小冷却水的进出水阀门的其中一个,通过降低循环水流量的方式,保证制冷剂热量不会大量流失,进而保持冷凝压力在一个相对较高的区间,在蒸发压力不变的前提下,压差增加,规避告警;第二个方式是,将机组多次开机,使冷凝器压力提高即可,一般而言,运维操作多采用两种方法结合,一般最多2次就可以将冷水机组正常开机,这个时候要特别关注冷凝压力,当超过正常值或者压力升高较快的时候,就要逐渐开启循环水阀门,直至机组正常运转。
02 结语
水冷冷冻水系统作为当下数据中心使用较多的制冷系统之一,其核心设备——离心机的运行工况尤为值得关注,冷水机组的故障告警不仅来源于自身,还与整个系统的关联设备关系密切,所以,作为数据中心运维从业人员,不但要了解设备及系统的基本构造,在一定程度上要形成联动思维,在面对运维过程中的机组告警时,要全方位的去分析甄别,以期用最短的时间定位故障,对于系统级故障,运维工程师还需具备动手解决的能力。
本文从系统应用出发,将水冷离心机常见的故障予以列举和分析,并结合行业案例和个人经验给出解决对策,希望能在数据中心运维过程中给予大家一些建议和帮助,优化MTTR,助力数据中心运维效率提升。
#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}