作 者:都珂 刘庆良 李斌
部署调度和队列技术增加了分组的时延和抖动,减轻了因为拥塞而可能引起的丢包的影响,即在丢包、时延、抖动3项指标之间折中,使得网络的QoS指标控制在业务需求的范围之内。
典型路由/交换设备的队列调度和管理流程包括流分类、丢弃算法和出入队列调度算法3个环节[3]。当前有多种流分类机制,简单的有基于以太帧优先级(802.1p)、IP服务类别(ToS)、区分服务码点(DSCP)等优先级分类的,复杂的有基于五元组,甚至深度报文检测(DPI)的流分类;入队列调度大致有随机早期检测(RED)、WRED算法两种;出队列调度算法较多,基本的有PQ、效率较高的有加权公平队列(WFQ)、对某种业务重点保障的LLQ等等,每年还有各种形形色色的新研究成果出现。从宏观上看,这些队列技术的性能差距并不是很大,它们都是解决毫秒级以下QoS风险的技术机制[4]。
即使当前设备制造技术可以支持很大的包缓存队列,但是,调度和主动队列管理技术仍不能用于解决更大的QoS风险,因为缓存实际上是以降低时延和抖动指标来换取丢包率指标,而业务对QoS的三大指标要求是均衡的,过分的倾斜对于单个指标并不能得到理想的结果。建议数据业务队列使用5 ms~6 ms缓冲长度,语音和视频业务队列使用2 ms以下的缓冲长度[5]。
3 接纳控制技术
业务(如IPTV、VoIP)可以允许瞬间较大的丢包率,以及持续较长时间非常小的丢包率,如果长时间持续拥塞,则业务的体验,如VoIP业务的MOS值,会下降直至不可接受,所以秒级以上的QoS风险需要接纳控制技术[6]来应对,如图3所示。
接纳控制有基于业务设备的接纳控制和基于IP网络设备的接纳控制两种。业务层设备的接纳控制方案中,IP网络根据规划的业务量为业务网络准备了相应的资源,业务设备则对接续中的业务量作计数,并对超限的业务拒绝接纳。而IP网络设备的接纳控制,则是在IP网络资源控制服务器的参与下,由IP网络设备拒绝接纳超限业务。如图4示意。
无论是基于业务设备的接纳控制还是基于IP网络设备的接纳控制,客观上都拒绝了业务的接入,增加了“呼损”,即接纳控制技术本质是以“呼损”指标损失换取MOS值等业务体验指标稳定。
4 流量工程和资源预留技术
绝大多数分钟级的QoS风险是由业务突发流量引起的,如大型庆典、会议、活动等,这些突发业务具有局部性和暂时性的特点,带宽扩容投入产出比不佳,且建设周期上不能满足要求。但是长时间的业务被拒绝接纳,也是用户难以接受的。
为了解决这些分钟级的QoS风险,完成这些大型会议、活动的保障任务,流量工程和资源预留技术是最佳选择。
流量工程技术是在正常的IP路由之外的另外的包投递机制,原则上区别于正常的IP路由的技术都可以称之为流量工程,如IP显式路由选项技术和通用路由封装协议(GRE)显式路由技术,只是这两种技术显著影响IP包的转发效率而被废弃了。策略路由也可以认为是一种流量工程技术,其优点是可以部署在关键节点上,而不必全路由路径部署。MPLS流量工程(MPLS-TE)是目前最高效的流量工程技术[7],可以显式路由而不损失转发效率。MPLS-TE技术还可以和资源预留技术结合使用,进一步改善分钟级的QoS风险的解决效果。
5 网络级QoS解决措施
毫秒级及以下QoS风险可以称之为低阶QoS风险,秒级及以上QoS风险可以称之为高阶QoS风险。低阶QoS风险可以用设备级的调度和主动队列管理技术解决,高阶QoS风险则需要网络级的解决方案,网络级的解决方案有3种:
风险降阶;
忽略背景业务的质量;
采用接纳控制等技术。
所谓轻载的网络QoS解决方案实际上就是风险降阶的方案,将网络的QoS风险降低到毫秒级以下,以便用基本设备级QoS技术来解决。中国电信CN2、中国移动、网通、联通的IP专用承载骨干网都是采用这个思路来建设的[8]。
而在城域网等多业务IP网络中,往往采用忽略背景业务流量的方案。如图5所示,在这些网络中业务可以分为无QoS要求的尽力而为业务、有一定QoS要求的差异化服务业务,以及需要严格QoS保证的要求确保的业务,无QoS要求的尽力而为业务就是背景业务,一般占总业务量的大部分,引入进来是为了分担网络建设和运营成本。在网络上部署区分服务结构模型(Diff-Serv)技术之后,差异化服务业务加上要求保证的业务之和,一般情况下其QoS风险总是在毫秒级以下。虽然总体上网络的QoS风险是高阶的,但由于背景业务没有QoS要求,所以其丢包并不需要做特殊处理。而如果差异化服务业务加上要求保证的业务之和的QoS风险升级到高阶风险之后,接纳控制等技术也不满足运营商的运营要求,需要在新的业务量约束下,组织网络扩容。
因此网络轻载+Diff-Serv[9]技术仍然是目前运营商网络建设的优先选择。近年来下一代网络(NGN)承载网的研究和实践表明,在多业务IP骨干网络中,由于资源相对充足,而且VoIP业务的带宽比例较小,在采用区分服务并对话音业务进行最高优先级转发的前提下,可以不施接纳控制机制[10]。
轻载程度的选择与网络业务的突发性质有关。以城域网为例,平均负荷率40%的业务路由器(SR)上行链路,其在5分钟平均负荷率分时图上的峰值约为65%,秒平均负荷率分时图上的峰值约为85%,毫秒负荷率分时图上的峰值约为110%。控制链路平均负荷率40%,其QoS风险主要是低阶的,可以用调度和主动队列管理技术有效化解。部署网络级QoS技术可以提高带宽利用率,同样的业务量下,链路带宽降低20%左右,则网络中的QoS风险将上升为秒级的QoS风险,这时就需要部署接纳控制技术来应对。
采用高阶QoS风险应对技术可以节省的带宽及提高的链路负荷率与不同时间颗粒度的负荷率分时图上的峰值之比有关,电信行业传统上用业务集中系数的概念来反映不同时间颗粒度的负荷率分时图峰值之间的关系。如公共交换电话网(PSTN)网络业务分析理论中,话务量最大的一小时称为忙时,忙时集中系数的定义为忙时业务与全天业务量之比,则在一小时平均负荷率分时图上的峰值与全天平均负荷率之比就是24×忙时集中系数。因为大多数数据网络网管系统的流量采样周期是5分钟,所以网管系统上颗粒度最小的分时图是5分钟平均流量分时图,同样定义最忙5分钟集中系数为忙时中业务量最大的5分钟业务量与忙时业务量之比;定义最忙秒集中系数为最忙5分钟中业务量最大的1秒业务量与该5分钟业务量之比;定义最忙毫秒集中系数为最忙秒中1毫秒业务量与该秒业务量之比,则: