|
融海咨询携手NetIQ保障陕西电信DNS系统
http://www.cww.net.cn 2009年8月28日 14:12 通信世界网
背景 中国电信股份有限公司陕西分公司(简称中国电信陕西公司)是中国电信股份有限公司在陕西省设立的省级分公司,是陕西省内主导的全业务通信运营企业。根据中国电信股份有限公司的授权,中国电信陕西公司下辖10个市级分公司、89个县(市、区)级分公司及1个直属单位(西安机动通信局)、1个专业子公司(陕西公众信息产业有限公司),服务网点遍布陕西城乡各地。目前公司主要经营话音、数据、图像、多媒体等业务,可以提供移动电话、本地电话、长途电话、互联网接入及应用、数据通信、视讯服务、国际及港澳台通信等多种类综合信息服务,能够满足广大客户的各种通信及信息服务需求。 随着宽带用户数的不断增长以及互联网应用的日益丰富和多样,DNS业务需求成倍的增长,DNS业务的安全稳定性要求也越来越高。面临业务的不断增长、系统和系统外界的病毒以及各种形式的攻击等威胁,要保障DNS业务稳定、安全、高效的运行从而为用户提供可靠的DNS服务,就必须采用主动的维护管理手段,对DNS系统进行有效的监控和管理。 DNS是当今Internet的基础架构,众多的网络服务(如Http、Ftp、Email等等)都是建立在DNS体系基础之上的。DNS系统的稳定正常与否,已经成为互联网业务是否正常的基础标志。 针对这几年不断发生的DoS/DDoS攻击、缓冲区溢出攻击、IP碎片攻击和网络蠕虫攻击等针对DNS系统的攻击,一般的提升自身DNS性能的解决方式已经跟不上DDOS攻击的迅速增长;同时目前有一些专门针对DNS系统缓存部分的攻击比较频繁,造成DNS系统的缓存中毒,使得有些域名被篡改,有时其攻击流量超过DNS系统的设计值,容易造成DNS系统的瘫痪。当DNS系统瘫痪、或者一些核心的政治域名被篡改,将给运营商带来非常大的的影响。 原先那种粗放式、被动的管理方式已经无法保证DNS系统的正常运转。尤其是5.19DNS断网事件发生时,由于DNS系统没有主动的报警信息,技术人员只能被动地对各种系统进行逐个排查,消耗了大量的时间,无法及时恢复网络。我们认真分析和研究了事件发生的起因、经过和影响,结合当前各地DNS系统的现状,我们认为对DNS系统进行主动监控管理,实施DNS系统监控项目十分必要。 基于DNS系统的业务特点,融海咨询的技术人员和陕西电信网监中心的技术人员一起,确定了DNS系统监控管理项目需要重点实现的四大目标:确保DNS系统的可用性、保证DNS高性能、DNS系统运行状况分析报告、故障准确预警。 从最近几年的趋势看,DNS系统所遭受的攻击越来越频繁,自身DNS性能的不断提升已经跟不上DDOS攻击的迅速增长。因此,需要一种主动的监控手段,能够在攻击开始时,及时地进行准确预警,以便管理员能够及时得到攻击的方式以及来源,便于启动攻击的应急预案,保证网络性能不下降、网络不中断。 对于DNS系统监控的预警必须达到以下需求: 准确预警(DNS的流量有时变化比较大,因此需要准确的预警,排除异常误报); 能够在QPS等指标异常时,抓取DNS的运行状态,抓取请求IP的Top-Ten排行,请求域名的Top-Ten排行; 能够分级别告警; 能够提供声音报警及邮件报警等多种报警方式。 融海咨询帮助陕西电信成功部署AppManagerDNS监控管理系统 由于陕西电信的DNS系统拥有两个节点。两套DNS系统均使用RadWare四层交换机进行DNS负载均衡。因此DNS服务器均无法与城域网直接通讯。根据这种分布情况,需要两套AppManager的管理服务器基础模块平台收集和监测数据,一个用于监控节点1DNS系统;另一个用于监控节点2DNS系统。 为了便于统一管理,我们建议两套管理服务器都采用双网卡模式(一网卡连接四层交换机内部,与Dns服务器保持一致,相互间能够通讯;另外一网卡设置为公网IP,便于分析中心及控制中心与之通讯。),同时与内网网保持联系,只有这样才能在统一的控制中心实时获得监控数据。 基于陕西电信DNS系统的软硬件环境(如图2-1所示),在AppManage的监控管理系统部署中需要分别按DNS系统监控(控制台包括Web控制台及知识库)与Agent、分析中心与控制中心、响应时间监控三个部分进行实际设计部署。 图:DNS监控系统部署 图:4月8日—14日节点1交换机各端口连接数周报 图:4月8日-14日节点2各服务器CPU利用率周报 AppManager提供了专门用于数据分析的产品-分析中心(AnalysisCenter)。分析中心是构建在数据仓库基础上的分析系统,能够对AppManager 收集的各种数据进行有效的统计、分析从中挖掘出有用的信息,为领导决策、故障分析和预警提供有力的依据。 Appmanager的AnalysisCenter提供给用户功能强大、类型极为丰富的多种报表,如服务水平报表,性能报表,趋势分析报表等等。报表查询快捷,可灵活定制。用户可以自行定制报表中要分析的数据、数据的时间段、数据如何进行计算(均值、最大最小值、求和或者用户指定算法)、报表的表现形式(柱状图、饼型图、点线图等)、报表中的数据粒度(比如在日报表中可以指定是1小时聚合一次数据还是2小时聚合一次数据;1小时聚合一次,则日报中包含24个数据点,2小时聚合一次则日报中包含12个数据点)等等。 由于AnalysisCenter支持丰富的报表类型,因此制作报表时,需要根据查看报表的人员角色不同,选择合适的报表模板。对于管理人员,只需要提供有关系统整体状况的报表,而不需要关心具体的性能报表。如下图通过Dashboard模板使得用户可在一张报表中分别从系统资源使用情况、业务响应时间、应用服务器性能状况几个不同的角度清晰地了解到系统的整体状况: 图:分析中心服务性能报表 同时利用分析中心,可以按照自身需要组织相关的趋势报告,了解系统整体发展的趋势情况,使管理人员能够根据业务发展情况根据发展趋势及时对系统进行升级及调整,提高DNS系统的可用性及性能。 图:DNS服务器Qps一日分布趋势 图:分析中心性能趋势图 除了对服务器、操作系统的性能指标进行基本的监控,我们还为用户定制了应用于CNS系统的监控脚本。利用NetIQAppManager深受用户好评的简易、快速的客户化脚本开发功能。仅仅两周的时间,我们便和用户一起完成了这些脚本的开发和部署,速度之快大大超出用户最初的预期。 融海咨询NetIQDNS监控系统助陕西电信准确识别攻击源 融海咨询的AppManagerDNS监控系统解决方案目前已经在陕西电信DNS系统上正常运行一年多。在过去的一年中,AppManager成功帮助陕西电信抵御了多次的DNS攻击,能够在DNS系统遭受攻击的第一时间通知管理员,并且能够利用TopTen排行分析攻击来源,以便管理员对攻击源进行屏蔽处理。 2009年5月19日晚,互联网上形成类似海量递归攻击的DNS数据流,严重超过DNS的处理能力,从而造成大规模断网。事件涉及江苏、河北、山西、广西、浙江等十几个省份,造成众多网站无法访问。陕西未遭受攻击,根据DNS的Top-ten排行分析,暴风影音域名所占比例不高,未形成大量攻击。 陕西电信DNS未受到全国性的暴风影音的影响,系统运行正常。 在5月20日早晨,AppManager利用web控制台及时进行了系统报警,并利用网管提供的Top-ten排行,排除了5.19日暴风影音的影响因素,准确识别了来自一次来自新疆的攻击源(61.138.238.237),并利用AppManager提供的黑名单配置脚本,及时地屏蔽攻击源,保证了整个系统的正常运行。这一类攻击时有发生,AppManager每次都能及时发现问题、及时告警,及时屏蔽攻击源,保证了DNS系统稳定、正常地运行。 图:DNS的TopTen排行 图:DNS监控实时报表及告警 背景资料: 5.19电信DNS遭受攻击事件介绍: 2009.5.18日晚,私服攻击免费DNS授权的DNSPod服务器,大流量攻击,导致机房直接切断DNSPod网络。为第二天的大规模断网埋下隐患。 图:DNSPod流量遭受攻击流量 5.19日晚,由于递归服务器中的缓存逐步失效,每次解析DNSPod上的域名都需要多次发送递归请求。而同时,由于暴风影音的众多用户(预计全国上亿用户),并且软件自身机制的影响(无法解析时会重复请求DNS域名)。在互联网上形成类似海量递归攻击的DNS数据流,严重超过DNS的处理能力,从而造成大规模断网。 事件涉及江苏、河北、山西、广西、浙江等十几个省份,造成众多网站无法访问。陕西未遭受攻击,根据DNS的Top-ten排行分析,暴风影音域名所占比例不高,未形成大量攻击。 域名服务体系是由各个环节的服务器组成一个链条,任何一环的薄弱都将影响整体的安全性能。此次全国范围内出现的网络故障,是暴风影音网站域名解析故障导致的电信的递归域名服务系统负载过大,在域名服务链条的层次不算高,也导致了大范围的网络故障。 这次故障也曝露出我国域名体系诸多环节中的潜在安全风险。全国的域名系统层次众多,规模庞大,管理归属分散,要加强整体的安全性能,需要从各个环节入手,提高安全保障能力是个宏观系统工程。 此次事件给网络安全行业乃至全社会敲了一次警钟。可以说,如今的互联网其实是很脆弱的,整个网络架构决定了,一旦DNS的服务器出现问题,后果会异常严重。互联网安全水平亟待提高。 编 辑:张翀
|
每日新闻排行 企业黄页 会议活动 |