作 者:CWW
“5.19断网事件”,网络安全警钟再响。5月19日晚21点左右,中国出现大范围网络故障。江苏、河北、山西、广西、浙江、天津、内蒙古、黑龙江、广东等省份均有网民反映上网遭遇故障,出现打不开网页等问题。据工业和信息化部通信保障局发布的最 新公告,确认该事件原因是暴风网站域名解析系统受到网络攻击出现故障,导致电信运营企业的递归域名解析服务器 收到大量异常请求而引发拥塞。
在此事件发生的第一时间,绿盟科技作为网络安全领域的领军企业,伴随客户度过了惊心动魄的两小时,上演了一场与DNSDDoS搏斗的精险实战。
临危受命
5月19日晚9点半左右,绿盟科技的安全专家小林正在回家的路上,出于职业习惯,小林路过广场旁边的几个网吧时,下意识地把视线扫了过去,现在应该是网吧人满为患的时候,但今晚有些异样:有的网吧没什么人,有人的网吧则是人声鼎沸,群情激奋,大家在嚷着什么?!
突然,急促的手机铃声打断了小林的思路,来电显示:某电信工程师。小林急忙接通电话,局方工程师非常焦急地说:“我们的网络出现重大故障,请马上赶到电信机房”。
小林急忙调转方向赶过去,此时电信机房门口工作人员正焦急等待,小林一下车马上与他们赶往运维中心。
互联网危机四伏
进入运维中心首先经过客服中心,客服中心的电话此起彼伏,客服人员经常重复的几个词就是“网页访问特别慢”、“邮件无法接收”、“无法上网”。进入运维中心,发现里面灯火通明,监控中心网络、系统、业务技术专家都在现场,运维中心主任一脸严肃。人员到齐后,主任召集各条线的技术人员开了一个紧急会议,对当前问题做了总结。网络组技术人员反馈:网络设备CPU利用率、数据流量没有异常;系统组技术人员反馈:RADIUS服务器工作正常,宽带客户认证授权正常;业务组人员反馈:城域网大面积出现宽带用户访问网页速度慢、无法上网现象。
小林一边迅速记录着网络的现场数据信息,一边与绿盟科技总部的技术支持中心联系,此时绿盟科技的另两位同事已经赶到了运维中心。
应急团队在响应
与此同时,绿盟科技总部技术中心也是一片忙碌。在当晚九点左右,总部就陆续接到华南、华北、华东等地分支机构的汇报,称运营商互联网出现故障,部分互联网用户的服务受到影响。鉴于此次网络故障影响范围广,技术支持中心立即向应急响应团队经理报告了情况,经过对现有数据分析发现这是一起重大的互联网安全事件,马上通知全国各地分支机构技术专家迅速组建应急响应团队,为各地随时可能出现的安全问题进行准备。
重大转机
运维中心现场人员在分析本地城域网故障的同时,与集团公司运维部也进行了汇报交流,反映了本地网遇到的问题,询问骨干网是否出现异常。
小林根据来自于总部技术支持中心的技术应急信息以及现场情况对网络故障进行了初步分析。随后对相关安全系统展开检查,突然发现部署在DNS系统网络出口的黑洞安全防护设备有异常告警,DNS系统的网络流量出现激增。针对此异常情况,小林即时启动设备自带的抓包功能进行抓包,然后对获得的数据包进行分析,发现超过50%的DNS解析请求是针对某互联网业务提供商的。随后,运维中心的现场人员对DNS系统进行了核查,发现DNS服务器群处于超负荷运行状态,DNS查询响应延迟非常大。
小林迅速将这一发现与绿盟科技总部进行了沟通,总部应急团队与小林等局方现场技术人员紧急讨论后,立即确定解决方案。随后小林向运营商局方人员介绍了故障原因及解决方案,局方人员与集团公司再次进行了紧急沟通,汇报了本地监控发现的DNS服务的异常情况,并与某互联网业务提供商求证该公司的系统是否出现异常情况,该公司负责人反馈系统服务出现异常,目前正忙于相关系统的升级抢修工作。
问题定位后,绿盟科技的技术专家与局方人员共同商讨,即刻确定了应急方案:一是在黑洞上开启模式匹配策略,对指向该互联网业务运营提供商相关域名解析请求进行过滤,减轻对DNS服务器的查询压力;二是在本地DNS服务器上针对该互联网业务运营提供商相关域名设置强解析策略,保障运营商以最小的代价保证绝大部分的应用正常开展。
平息危机
晚上11点,小林和局方运维人员迅速下发应急策略后,DNS系统网络流量从150M飞速下降为10M,DNS查询请求骤然下降70%,DNS系统快速恢复正常,随后用户的互联网接入业务逐渐恢复。
小林等技术专家进行应急支持的同时,华北区域的应急响应人员在也在华北某电信运营商的机房里忙得热火朝天——网络故障分析、数据抓包、数据分析……,再将现场情况向绿盟科技总部进行反馈。总部技术专家分析发现华北电信运营商遇到了与小林所支持的南方电信运营商相同的DNS大流量攻击问题,不过目前的DNS流量还只是处于快速增长阶段,为了防止DNS系统可能出现的瘫痪,总部马上与现场应急响应人员交流现状和制订应急处置方案,并经过与局方运维人员确认后立即启动相应的防护策略。应急策略下发实施后,防止了该地区互联网业务大面积中断的发生。
华东、华南、华北、西北等地省电信运营商陆续与集团公司取得联系,各省市电信运维部门采取紧急策略,对各地的DNS实施应急防护策略,随后DNS服务逐渐恢复正常,互联网业务渐渐恢复。5月20日凌晨全国互联网基本恢复正常运转。
后记
这次事件貌似由DNS的大量查询请求所引起,对DNS服务器形成了一次饱和的DDoS攻击,导致某些运营商的DNS瘫痪。事实上,DDoS攻击广泛存在于互联网中,而针对DNS服务器的DDoS攻击事件更是层出不穷,且形式越来越多样化,主要包括以下几种:利用缓冲期溢出;海量流量堵塞带宽;伪造源IP发送海量DNS查询;源端口53的UDPFLOOD(攻击负载均衡设备);真实协议栈大量查询随机域名引起迭代查询。
针对这些广泛存在的DDoS攻击,绿盟科技专家指出,通过在运营商骨干网部署流量清洗系统,可以帮助运营商清洗网络中的DOS流量,利用抗DDoS安全产品的模式匹配、以及IP地址信誉机制等独特的防护算法对形式多样的DDoS攻击进行安全防护,在运营商网络受到攻击时可以为运营商的DNS服务器提供有效和及时的安全保障。