首页 >> 通信新闻 >> 滚动新闻 >> 正文
 
网络产品硬件的可靠性保证
http://www.cww.net.cn   2011年1月14日 10:28    通信世界网    
作 者:张欢军

实现产品与网络的高可靠是一个系统工程,本文以H3C产品为例,就通信产品硬件的可靠性保证作简要探讨。

实现高可用网络的方法,除了像冗余备份、提高故障诊断能力、增加备件这些减少设备宕机时恢复时间的方法之外,还包括一个重要的指标——设备的可靠性。如何保证硬件设备的可靠性?它包括哪些方面?

可靠性管理:可靠性保证和增长的基础

之所以把可靠性管理放在第一位,优先于可靠性设计、分析和试验,是因为我们认为后者都是具体的、细节的技术或方法,是可以短期内修正或完善的;而可靠性管理则代表了一个公司可靠性领域在流程和制度上的成熟度,需要时间、实践、经验和数据的积累和沉淀,可以说是员工心智和公司文化的体现。

H3C于2005年正式将可靠性纳入公司的流程管理,作为产品开发过程中的重要一环。对于研发的每款产品,H3C都会制定相应的可靠性规格和过程实施计划。可靠性规格是产品概念阶段在可靠性指标上的承诺,根据各方面的需求决定出要做什么样的产品。可靠性过程计划则明确定义什么阶段、由谁完成哪些可靠性工作,达到什么目标,过程如何规范,交付哪些内容,在执行上保证了规格承诺的兑现。

举例来说,器件管理和优选便是可靠性管理体系中的重要组成部分。做过产品开发的人都知道,不同厂家的同型号器件,往往很难做到所有参数完全一致。当器件参数不一致时,产品在设计初期就需要考虑通过容差设计来兼容这些器件,这样就对设计和制造提出了更高的要求,一定程度上提高了设计制造的难度和成本。随着供应商和器件型号的增加,管理费用迅速上升,彼此沟通变成了一个费时费力而且低效的工作。另一方面,设计和制造也不断出现由“兼容设计”引起的问题,允许免检直接入库的器件变少。对于这种问题,在H3C,有专门的部门负责器件优选和认证管理工作,他们跟踪业界器件技术发展的动态,对制造、客户出现的器件问题进行跟踪和数据搜集,提供各类优选器件清单,使器件选型工作简单有效。当有器件需要替代时,必需经过足够环节的审核、测试和小批量验证才能被规模使用。

可靠性增长的一个重要方法是应用FRACAS系统(Failure Report Analysis and Corrective Action System),其原理是利用“故障反馈、闭环控制、预防再发生”,通过一系列规范化的工作程序,及时报告产品故障,分析故障根因并纠正,通过临时规避措施减小故障的影响,通过预防再发生的解决措施实现产品可靠性增长。在H3C,从研发、试产、生产到客户现场,各环节不同程度都在实施故障报告和闭环。以HASA(Highly Accelerated Stress Audit,高加速应力稽核)流程为代表,该流程融入了FRACAS和8D的思路,对每一台HASA过程出现问题的设备,都建立流程跟踪,从条码记录、故障现象、故障风险分析、根本原因总结到解决措施、闭环实施,把各环节有机整合起来,实现发货前检验的高效率和问题闭环的有效性。将每个HASA失效都看作改进过程的机会,从而使解决问题的投入达到利益最大化。

根据流程,所有和可靠性相关的关键数据都集成到了QA系统的可靠性模块。在这里,可以查到某款产品在特定发货时间的市场失效情况,可以跟踪市场实际MTBF、累计失效率、制造批次相关的失效率等等。通过数据分析和同类产品比对,去发现设计、制造、管理各环节可以提高的机会,实现进一步的可靠性增长。

良好的可靠性管理通过建立一套严格的纪律,指导设计人员什么时候要做什么事情;可以让今天的教训成为明天的预防,在明天就“一次性把事情做对”;可以让我们“站在巨人的肩膀上”,做任何事情都不是从零开始。而所有的目的,只是为了实现可靠性目标的承诺,保证提供给客户的产品,在承诺的时间内是高可靠的、是满足客户要求的。

[1]  [2]  [3]  
相关新闻
编 辑:石美君    联系电话:010-67110006-818
分享到新浪微博 分享到搜狐微博 分享到网易微博 分享到139说客 分享到校内人人网 分享到开心网 分享到QQ空间 分享到豆瓣 分享到QQ书签       收藏   打印  进入论坛   推荐给朋友
关键字搜索:可靠性  H3C  
文章评论查看评论()
昵称:  验证码:
 
重要新闻
通信技术
企业黄页
会议活动