|
||||||
|
企业BSM最佳实践系列:IT故障管理只凭经验,BSM难以落地
http://www.cww.net.cn 2012年9月21日 14:02
虽说如今的硬件与软件系统都有各种各样的热备(HA)或应急方案,但随着IT系统和企业业务系统复杂性的不断提升,“没有故障的网络”似乎也只是IT人闲侃的一个神话了。IT故障隐患就在身边,如果一个企业的IT运维管理完全依赖于工程师的经验,这种人为因素过多的管理境界,IT运维管理恐怕永远会处于手工作坊的阶段。因此,大家都在匆忙寻找一味叫做BSM的解药,而能否有一个高效而准确的故障发现机制,能否进行有效率的根源分析,对于BSM“落地”而言,则是一个很重要的指标。 以“人”为本的IT运维故事 根据IDC之前提供的《中国业务服务管理(BSM)》资料,国内IT运维市场预计到2013年将达到47.9亿元的市场份额。业务扩容压力对高端运维人才的需求迅速增加,同时大量在线关键业务系统需要7X24小时稳定可靠运行的保障,这对IT运维管理团队的整体服务水平的提升要求越来越迫切。作为朝阳行业的IT运维,在一路高歌猛进的同时,也承受着高级IT运维人员频繁跳槽,离职率过高带来的一系列问题。 在某合资企业,或是因为长期加班的压力、或是因为薪金问题,一位资格较老的IT工程师突然离职了。企业领导和其他同事除了惋惜之外也没有太好的办法,在做好交接工作之后,这件事也渐渐被淡忘。 突然,企业总部的ERP系统出现了严重的故障,时断时通。IT运维部门上下齐心,从物理层查到了应用层,又从应用层查回到物理层设备,并且,大家也拿出之前这位离职工程师的文档研究起来。有人终于找到了这台服务器的故障记录,也发现了同样 “缓慢”的故障和处理方法。看似是一根救命稻草,但按照这个文档执行了数据库优化向导之后,故障还是没有解决。把人请回来?或者再请一个高人过来看看? 不知道你能从这个故事中看到什么?但从故障现象来看,有的网络故障解决办法是相通的,但从随时变化的网络架构和业务系统实际运行环境来看,解决相同现象的故障,方法可能迥然不同。如果我们在IT运维管理的过程中,过多的依靠个人英雄主义,最终会导致网络故障处理效率不高,并造成IT运维服务质量停滞不前的邋遢局面。 作为国内领先的IT运维管理专家,北塔软件认为:“依靠个人能力进行运维管理有许多缺点,比如无法做到事前发现、无法做到准确定位、故障原因可能出现误判、响应时间慢等等。核心业务和IT系统息息相关,一旦网络出现了故障,影响和损失非常巨大。但传统的管理模式只能导致出现问题后被动响应,而IT运维管理部门的真正价值并不是出现故障之后的处理,而是在故障发生前能够准确判断,排除隐患,并避免故障的发生。虽然很多企业发现了这个问题,并引入了BSM等理论作为支撑,但如何在这套理论下利用运维管理工具把BSM落地,摆脱人为因素的影响,这个课题也许在国内IT运维管理领域才刚刚开始。” 处理故障的三要素:精、准、快 BSM落地是体现IT部门价值的最佳途径,也就是说BSM建立后,IT部门是能做到对业务的透明管理。透明化监控业务系统运行情况,就能事先发现可能引起系统宕机故障或者访问质量无法保障的问题,把可能发生故障的隐患,通过业务系统的整体监控视图发现问题。那么,怎么才能让BSM落地呢?如何让故障处理不再成为手忙脚乱折腾,或者必须请来一个外来的和尚呢?北塔软件在其发布的北塔BTIM产品中包含了一个非常经典的“故障根源分析策略”,也许可以回答这个让多少人纠结的疑问。 [1] [2]
来源:通信世界网 编 辑:刘佳 联系电话:
关键字搜索:应急方案
猜你还喜欢的内容
文章评论【查看评论()】
|
企业黄页 会议活动 |