首页 >> 通信新闻 >> 滚动新闻 >> 正文
 
网络产品硬件的可靠性保证
http://www.cww.net.cn   2011年1月14日 10:28    通信世界网    
作 者:张欢军

可靠性设计:关注细节,重在执行

谈到电子产品可靠性设计,我们几乎马上会想到热设计、元器件降额、容差容错设计、可靠性预计等等。可靠性设计是否成功,有两点必不可少,其一是执行,其二是细节。

首先是执行。以降额设计为例,不少公司都有降额设计规范,但这个规范是否被严格执行了,超出降额的器件有没有被专业评估,降额要求是否根据制造/市场元器件的表现调整,不同产品是否需要分别对待实现全寿命成本最优,都是可靠性设计的关键。再如热设计,在H3C,热设计由可靠性工程师保证。每款产品,在开发初期,都会对散热进行评估和仿真,提前释放散热风险。在整个评估过程中,可靠性工程师和结构工程师、产品开发人员、互连设计工程师的沟通非常紧密,结构、布局的变化会知会可靠性工程师进行散热风险评估。风险没有释放,就不能通过下一个技术评审点。

其次是细节。可靠性设计是一个需要注重细节的工作,所谓“千里之堤,溃于蚁穴”。1980年,阿丽亚娜火箭第二次试飞时,一名工作人员不慎碰落一个部件的商标,堵塞了发动机燃烧室的喷嘴,造成发射失败。1985年,美国发射“三叉戟”导弹,由于发动机燃烧室中剥落了一块黄豆大的绝缘层,结果高温火焰烧穿了那里的金属壁,燃气向外喷射,发动机爆炸。“Paying attention to details”因此被直接写入到美军标338中的,这也是经验和思考的总结。

以H3C为例,热设计中的热仿真过程不但仿真常态情况,还会对风扇停转等异常状态进行仿真;在降额设计上,对各类器件电应力进行遍历审查,对不同风扇转速下热应力进行遍历测试,保证在规定环境下每个器件承受的应力满足降额要求;对易损耗的器件进行寿命评估,保证在规定时间内设备符合用户的要求;对关键电路进行容差设计和仿真,保证器件参数随环境应力、寿命漂移时,电路依然可以可靠工作。对电路进行简洁度设计,通过SI/PI仿真减少不必要的器件,简化设计从而降低单板失效率。

可靠性分析:防患未然,心知肚明

可靠性分析主要包括三部分:可靠性预计、FMEA(故障模式影响分析)和FTA(故障树分析)。可靠性预计通过计算MTBF、返修率等指标,评估维修成本、备件成本和整网可用度,可以提前预计产品在现场运行的可靠性情况。FTA构造繁杂,对人员经验和技能要求高,通常只对重要故障进行分析。对于复杂产品,FMEA是一个防患未然的有效方法。举个简单的例子,当我们遇到十字路口红绿灯失效的情况时,哪种失效现象最不希望出现?显然,当两条路上同时出现绿灯时交通事故隐患就被埋下了。那么在开展交通信号灯控制系统的FMEA分析时,就要关注哪些器件失效会出现绿灯同时点亮的情况,是否有解决方法。

在H3C,复杂系统会开展FMEA分析工作,通过对系统中可能出现的故障模式和影响做深入分析,将故障检测和容错设计纳入产品需求,消除单点故障。对于冗余备份系统,保证失效发生时设备可以快速倒换,业务运行不受影响,从而提高产品可靠性。在可靠性预计方面,利用强大的数据支持,结合历史数据分析,对可靠性预计进行针对性修正,提高了预计的准确性。

可靠性试验:真金不怕火炼

H3C研发出来的每一款产品,都会经受可靠性试验的洗礼,其中最严酷的当属HALT试验(Highly Accelerated Life Test,高加速寿命试验)。

90年代HALT试验在国外获得推广,国内企业由于各种限制起步相对较晚。与传统的施加模拟客户环境的应力来发现故障的环境试验不同,高加速应力是一种主动的试验。使用应力步进的方法,使设备不断接近极限应力,直到故障暴露。通过“暴露缺陷—不断改进—再试验—再改进”的方式,持续发现并解决设计、来料、工艺等相关问题,从而获得产品的快速稳定。这有点像运动员的训练,如果要参加100米短跑比赛,那么运动员平常训练时绝不会只是重复训练100米冲刺,力量和耐力的训练必不可少。同样道理对于产品来说,虽然标称工作环境是0~40/45℃,HALT试验过程中其实都会经受100℃高温和-40℃低温的极限考验。

[1]  [2]  [3]  
相关新闻
编 辑:石美君    联系电话:010-67110006-818
分享到新浪微博 分享到搜狐微博 分享到网易微博 分享到139说客 分享到校内人人网 分享到开心网 分享到QQ空间 分享到豆瓣 分享到QQ书签       收藏   打印  进入论坛   推荐给朋友
关键字搜索:可靠性  H3C  
文章评论查看评论()
昵称:  验证码:
 
重要新闻
通信技术
企业黄页
会议活动