|
||||||
|
企业BSM最佳实践系列:IT故障管理只凭经验,BSM难以落地
http://www.cww.net.cn 2012年9月21日 14:02
“BTIM故障根源分析策略”是指:通过日常高频度监测少量关键指标,控制被管系统管理压力,一旦发现问题,依据实体业务流分析逻辑,按分析需要逐层扩大数据采集的深度和广度,层层深入,直达故障根源。也许这段内容对于很多刚刚接触IT运维管理的新人,或者说管理层来说有一些难以理解。但若把这个套理论归纳起来,就是要在故障处理时突出“精、准、快”这个三个字,便很容易了然。 精:是指业务日常健康指标实现精细化管理。如果我们业务系统所有发生的事件都没有遗漏的接收了下来,这特别是对一些疑难杂症的分析有帮助,可后期进行详细的分析。但在海量的业务事件中,快速的定位到事件的根源如同大海捞针。所以,“精”代表的是有挑选的记录,而不是全部。 准:是指故障定位准、分析原因准。比如北塔BTIM通过服务视图追踪支持业务应用的IT组件的性能和可用性,通过TFS管理系统,采用SNMP方式取得服务管理参数,实现对主机、数据库、中间件以及应用管理的实时监控,通过软件来监视服务,管理人员在业务层就能查看所有关键信息,并通过各层监控来融合管理功能。而一旦出现告警事件,管理人员就可以通过TFS故障诊断路径直接定位源头。 快:是指预警快、操作快和处理流程快。要想实现快,必须有前两项功能的支撑,不然在海量日志中翻腾、在故障原因前左顾右盼,这些势必影响故障处理的时间。另外,这里的快还包含了IT运维工具本身的操作效率,比如:自定义左右键响应事件,实现参考信息快速链接等等。当然,快还包括了遇到重大故障快速启动应急响应流程。 BSM不要误读“人”的作用 业务结构不断变化的本性造成运维实体复杂性的增加,而要实现BSM,也不是简单的靠人堆砌起来的运维体系。BSM的三要素是人员、流程和技术。人员因素是指企业需要清晰定义IT支持人员的角色职责,明确人员的技能等级,进行IT部门内部的梯队建设。绝对不能抛开人的因素,但也只有把这三方的元素紧密配合,才能从总体上提高IT服务管理的质量并达到最佳实践效果。 [1] [2]
来源:通信世界网 编 辑:刘佳 联系电话:
关键字搜索:应急方案
猜你还喜欢的内容
文章评论【查看评论()】
|
企业黄页 会议活动 |