首页 >> 运维管理 >> 技术 >> 正文
说说数据中心日常维护工作的那些事儿
通信世界网 http://www.cww.net.cn 2014年2月20日 08:13
标签:数据中心 维护
 

数据中心要保持稳定的运行,需要大量的专业技术人员。一般承担重要业务的数据中心都是有人24小时值守,无人值守的数据中心一般只能承担不重要业务,完全无人管理维护的数据中心几乎没有。所以数据中心日常维护工作烦琐,但又很重要。随着人们的工作生活对数据的完全依赖,承载数据计算、运行的数据中心正发挥着越来越重要的作用,这更突显出维护工作的重要。

当一个数据中心建成投产后,维护工作就开始了,一直到数据中心的生命周期结束。一般我们可以将数据中心的维护工作分为四大类:一是日常检查类;二是应用变更、部署类;三是软、硬件升级类;四是突发故障处理类,下面就来详细说一说这些维护工作,让大家对维护工作有个了解。

日常检查

“千里之堤,溃于蚁穴”。任何的故障在出现之前都可能会有所表现,小的隐患不消除,可能导致重大的故障出现,所以数据中心日常的例行检查工作枯燥,但也很重要,可以及时发现一些运行中的隐患。根据数据中心承载业务重要性的不同,要对数据中心里的所有运行的设备进行例行检查。一些数据中心设备厂商提供了检查软件,比如网管软件,安全防护软件等。可以利用这些软件对数据中心网络进行检查,看日志是否有异常告警,网络是否出现过短时中断,端口是否出现UP/DOWN等。通过网络探测软件看网络质量如何。检查服务器应用服务是否正常,CPU内存等利用率是否正常。对应用业务进行检查,比如如果有搜索业务,就可以通过服务器进行单词搜索,看搜索的结果和延迟是否在正常的范围之内。这些检查每日都要重复检查,一旦有异常及时处理与消除,必要时将重要业务切换到备用环境中,然后排除后再切回。

对数据中心的机房环境也要进行检查,环境的温度、湿度、灰尘是否合乎要求。空调、供电系统进行运行良好,设备运行是否过热,地板、天窗、消防、监控都是检查的部分。不合理的地方要及时进行整改,而不应该偷懒。经常到一些数据中心,就会发现值班维护人员很多都抱着电脑在浏览网页,打游戏。对于日常检查应付一下,甚至根本不去检查,只要没有出现故障,就打游戏消耗时间,这样数据中心出现故障是迟早的事。一旦出现故障就毛手毛脚,甚至哪个业务走的哪个设备,哪个端口哪个网线都不清楚,本来一个小故障可能因为不熟悉导致大故障,因此日常检查绝不能应付,虽然需要不断重复,但却很重要,在持续的检查过程中,将会对数据中心的理解越来越深,这样每次检查都会有新的发现,在检查中进行学习。

应用变更

数据中心承载的业务不会是一成不变的,随着业务的多样化,经常要对业务进行调整,包括服务器和网络的设置。因此要对服务器和网络设备操作很熟悉,主要需要掌握Linux服务器命令和网络协议。要根据应用的需要,做出变更。这时就对维护人员提出了更高的要求,不仅是对数据中心原有业务要非常熟悉,还要对新上的应用业务有正确的理解,这样才能在不影响原有业务的基础上做调整。这样的应用变更每个月可能都要做几次,是数据中心维护人员的必修课,突显了一个技术人员的基本技能水平。这时要对设备操作命令比较熟悉,懂得如何实现业务,要经常和设备厂商的技术人员打交道,通过交流尽快掌握设备操作方法。同时,由于设备厂商对应用业务缺乏了解,这就需要维护人员在应用业务和设备具体实现之间做好协调,处理。以最快的时间和最小的代价完成应用业务部署。

软硬件升级

数据中心的设备一般运行周期是五年,不断地有设备需要逐渐淘汰进行更换,也有一些设备因为存在软件缺陷需要升级,因此软硬件升级也是维护工作的一部分,尤其是软硬件出现故障时,就必须要进行更换。有时为了不影响业务,往往还需要设备厂商提供软件补丁来解决问题。数据中心的设备成百上千,出现软硬件故障很正常,所以要不断地进行软硬件升级,这类工作往往都要在业务量最少的凌晨之后进行,维护人员通宵熬夜是常有的事,维护人员要有一个良好的身体素质,否则会吃不消。软硬件升级时需要做好回退机制,以防升级出现问题时无法回退,业务长时间无法恢复。当接手数据中心维护工作就会发现,怎么会有那么多的升级,几乎每个月都要有升级操作,熬夜升级工作成了维护人员的家常便饭。

突发故障

没有任何一个数据中心是不出故障的,在数据中心运行的过程中都会出现这样那样的问题。这时就显示出维护人员的高技能水平,根据统计百分之八十的故障都是人为故障,所以维护人员的水平高低往往决定了一个数据中心运行的稳定程度。另外对于突发故障,高水平的维护人员可以静下心来冷静分析故障的触发原因,迅速找到解决的方法,如果在短时间内找不到解决方法,也可以通过切换到备用设备上先恢复业务,再进行分析。这时拥有高水平的维护人员对于一个数据中心至关重要,在关键时刻就能派上用场。

虽然这些工作看起来有些平常,但千万别小看它们。数据中心维护工作实际上非常重要,关乎着整个数据中心业务的正常运行。目前市场上这类专业人才非常抢手,尤其对于具有较深故障排查水平的人才比较缺乏。只有重视数据中心的维护工作,才能给数据中心一个平安。通信世界网

 

来源:51CTO
相关文章
 
文章评论
 
    昵称:  验证码:

 
关注通信世界网
 
 
官方微信
“cww-weixin”(或扫描下图二维码),即可于获得独家的CWW视点分析、最新的通信资讯。
 
 
专家观点
李进良:4G发牌更有..
虽然中国电信、中国联通起步较晚,可以充分利用中国移动的经验,避免走弯路..
 
 
最新专题
  • 1

  • 1

  • 1

  • 1

通信百科
 
烽火通信 PTN 承载助力武..
武汉是中国移动集团指定的与北京、天津、青岛同批开通TD-LTE试点的城..
 
 
 
新浪微博 腾讯微博 微信 rss
人民邮电出版社
工业和信息化部
人民邮电出版社图书专营店
中国通信企业协会
中国通信学会
中国互联网协会
无线电频谱管理中心
工业和信息化部电信研究院
中国通信标准化协会
中国移动通信联合会
中国邮电器材公司
中国电信
中国移动
中国联通
中国信息协会信息服务网络委员会
爱购服务器之家
新浪科技
搜狐IT
腾讯科技
凤凰网科技
人民网无线频道
中国通信网
移动Labs
中华电子网
通信产业网
企业网
In-Stat
IT价值联盟
中国软件资讯网
通信人才网
慧聪通信网
CTI论坛
CIO选型网
CTO技术网
美通社
赛立信竞争情报网
CRS通信学社
ZDNet至顶网
和讯科技
博趣·兴趣门户
呼叫中心频道
运营与增值
信天下企业短信
新电子
OFweek光通讯网
中云网