作者:高健 中国移动集团网络部
随着近年来数据中心的大规模建设,传统供电系统在大规模部署和运营中暴露的可靠性、维护性等问题日益突出,推动着用户、设备商和方案设计公司合力进行供电系统的创新和优化,供电系统的建设思路逐步从传统上关注可靠性转移到保障可用性上来。那么为何要建设高可用供电系统,如何建设高可用供电系统,本文对此做出了一些探讨。可用性综合反映用户的真实需求,可靠性是影响可用性的因素之一
可靠性通过可靠度来衡量,可靠度的定义为:“给定系统在规定的工作条件下和预知的时间内持续完成规定功能的概率”。平均无故障工作时间MTBF ( 又称平均故障间隔时间) 是决定电源系统可靠度的重要指标,MTBF可通过定量定时的工业试验或理论计算的方式获得。可用性是指产品在任一随机时刻需要开始和执行时,处于可工作或可使用状态的程度。可用性计算公式是:
式中,MTBF(Mean Time Between Failures)是平均故障间隔时间,MTTR(Mean time to repair)是平均修复时间。
可靠性的高低代表了电源系统是否容易故障。但是从实际应用的角度来说,任何设备都不可能保证在生命周期内完全不出故障,用户希望的是设备尽量不出故障,即使故障了也不要因故障导致业务受影响;如果业务受到了影响,那么应尽快消除故障。相比之下可用性的定义相比可靠性范围更加宽泛,对于可修复系统而言,它不仅涵盖了设备是否容易出错的问题,还涵盖了设备是否容易从故障中恢复。很明显可用性更加真实地反映了用户的需求。
在UPS行业,通常用几个“ 9”来代表系统可用性的高低。它是指一年内,系统在线运行及可进行生产的时间比例。比如6个“9”(可用性可达到 99.9999%),即每年可能存在的宕机时间少于 32 秒。UPS系统的目标是尽量提高 UPS 电源系统的可用性,减少来自市电的影响。
提升供电可用性的途径
提高供电系统可靠性
从可用性计算公式可以看出,提高可靠性是提高可用性的一个重要途径。提高供电设备可靠性分四个层次:
第一,设计标准级。在产品规划设计阶段,应充分考虑产品的可能应用环境,选定相应的设计标准。对产品使用时可能的电气隔离、EMI/EMC、防雷、防浪涌、防噪干扰等电环境,防湿、防尘、防震、防腐等自然环境,及操作、维护、管理、搬运、安装等的人环境有充分的评估,从而构建产品合理的设计框架。
第二,器件级。在产品设计阶段,严格筛选器件,配合最优电路设计,并反复模拟各种恶劣环境测试器件应力裕量,保障各类元器件的可靠运行。对于关键器件如电解电容,如果电路设计不够优化,纹波电流过大,芯温过高,寿命将大大缩减,从而导致设备可靠性降低。散热风扇也要选择稳定性好性能优异的厂家提供,防止风扇故障导致功率模块温度上升,影响正常供电。
第三,部件级。部件的可靠性主要体现在它的稳定性和冗余性,在保证部件故障率降至最低的前提下,关键部件采用冗余设计是提高部件级可用性的最有效方法。
第四,方案级。通过优化系统设计,使供电系统运行可靠稳定,并且具备容错能力,整个供电路径无单点故障点。图1展示了一个无单点故障的冗余系统架构图。该方案由两套系统组成,在每套系统中,A4环节做到输入冗错,A5环节做到双回路互为备份,A6使用模块化UPS或者并机, A7为单电源负载提供双路保障,如果有条件A1和A2环节采用双路市电输入,单供电系统做到可靠冗余设计,然后方案采用2N容错设计,基本做到无单点故障点和在线维护。
图1 无单点故障的冗余系统架构图
提高UPS供电设备的可维护性
降低维护时间是提高可用性的另一重要途径。模块化设计可以有效改善易维护性,降低维护时间。UPS设备各个功能单元模块化之后,故障之后只需更换上相应备件即可,大幅降低了维护的技术门槛,运维人员可自行更换维护。不但维护成本可有效降低,故障修复时间也可大幅缩短,从而将业务损失降到最低。另外,模块化易于实现在线维护,即故障修复期间负载可以不断电。如果需要断电才能维护,就需要拉备用电源为负载供电,这样维护非常复杂,而且维护时间很长。
提高UPS供电设备的易用性
易用性是供电设备“可用性”的升华,直接影响用户的产品体验。从用户的角度看,需要从以下几个方面改善:①易搬运、易安装。这需要产品体积足够小,重量足够轻,并且是模块化可分解,从而降低搬运和安装的难度。此外UPS是否支持上下进线,是否支持并柜安装等都将影响安装的难度。②易扩容。数据中心一般都有未来的扩容计划,以匹配未来的业务增长需要。而现网的UPS供电设备为了确保可靠性通常供电路径非常复杂,牵一发而动全身,扩容非常不便,即使条件满足也有负载断电的重大风险。这样的供电现状显然是不易用的。如果能够像通信电源一样,功率模块可以热插拔,扩容只需采购功率模块在线插进去,那么扩容的易用性就可大幅改善。③易管理。UPS设备要高度智能化,各个供电节点做到可视化管理,便携化管理。比如,可以开发手机APP进行随身监控和管理。
UPS供电系统可用性发展的历程
第一代UPS——动态UPS。其利用机械惯性储能以及电动机、发电机的能量传输机制以提供短时间的不间断供电,体积庞大、造价昂贵、噪声巨大,犹如一个小型电厂。动态UPS的特征是占地面积较大,噪音大,不易维护和使用,接近一套工程设备。
第二代UPS——工频机。相比于动态UPS,其可用性提升主要体现在以下几个方面:第一,体积变小,搬运和安装难度降低;第二,备电时间可以由后备电池决定,从动态UPS的秒级备电上升到小时级;第三,可以对较差电网优化,如果一旦电网波动比较大,可以给后端设备提供相对稳定的电力供应。但是,工频UPS依然存在一些问题:第一,运输与安装问题。工频机因为体积庞大无法通过门和内置的升压用变压器重量太重无法使用电梯运输等,导致安装此类UPS经常要打墙安装、吊车运输;第二,维护问题,UPS主机类似黑盒设计,有任何故障或者异常都只能依托原厂家维修,运维人员不敢直接打开操作,时间响应慢,对业务影响大。
第三代UPS——高频机。高频机的出现进一步提升了功率密度,体积减小了50%,从功能模块上提升了维护性,缩短了MTTR时间,可在数小时内完成修复。重量较工频机进一步降低,有效提升了工程的可安装性。同时,高频机也大都采用了全数字化的高集成化设计,在维护性方面也有较大改进。THDi可以做到5%以下,明显减少电网的谐波污染,效率也进一步提升到92-96%,体现出其节能优势。但是,对设备可用性的追求探索并未停止:单点故障是否可以排除?故障修复时间是否可以缩短至分钟级?维护技术门槛可否降低至可以自行维护?