作 者:周世杰 秦志光 吴春江
P2P流量检测技术可分为基于流量特征的识别方法(TLI)和基于深层数据包识别方法(DPI)。TLI通过对传输层数据包进行分析并结合P2P系统所表现出来的流量特征,来识别某个网络流是否属于P2P。DPI采用协议分析与还原技术,提取P2P应用层数据,通过分析其载荷所包含的协议特征值,来判断网络流量是否属于P2P应用。DPI由于具有准确性高、健壮性好、具有分类功能,是P2P流量识别的主要方法。如果能够结合TLI和DPI的优点,就有可能设计出一个准确、高效的P2P流量实时识别算法。
关键词:对等网络;流量识别;流量过滤;内容监管
Abstract:ThePeer-to-Peer(P2P)network traffic identification technology includes Transport Layer Identification (TLI) and Deep Packet Inspection (DPI) methods. By analyzing packets of the transport layer and the traffic characteristic in the P2P system, TLI can identify whether or not the network data flow belongs to the P2P system. The DPI method adopts protocol analysis technology and reverting technology. It picks up data from the P2P application layer and analyzes the characteristics of the payload to judge if the network traffic belongs to P2P applications. Due to its accuracy, robustness and classifying ability, DPI is the main method used to identify P2P traffic. Adopting the advantages of TLI and DPI, a precise and efficient technology for P2P network traffic identification can be designed.
Keywords:P2Pnetwork;traffic identification; traffic filtering; content monitoring
近年来,对等网络(P2P)的用户规模、应用类型和流量均呈爆发式增长。分析结果表明,基于P2P的语音通信软件Skype在中国同时在线用户数高达900万,P2P互联网电视(如PPLive、PPStream等)的注册用户数已超过1亿,在线收视者数达到100~500万。P2P应用类型也已经从文件共享,扩展到语音、视频等应用领域。同样,中国互联网实际流量模式分析报告表明,P2P流量已占整个互联网流量的60%。
有鉴于此,国际网络设备生产商和网络服务提供商相继推出了P2P流量识别与监管产品。P2P流量检测设备包括网络缓存设备、应用层流量管理设备、流统计状态路由器和智能防火墙等。主要包括Cisco公司的NetFlow技术[1]、Allot公司的故障恢复流量管理方案[2]、CacheLogic公司的CacheLogic P2P管理方案[3]、 Verso Technologies公司的NetSpective系列产品[4]等,这些产品都使用了自行研发的深层数据包检测技术,除了在性能和识别精度上存在差别外,其技术的本质是相同的。
相对来说,中国对于P2P流量识别技术的研究工作较少,不仅缺乏高质量学术论文,也缺乏高效的P2P多媒体内容识别与过滤产品。从产品角度来看,中国部分网络设备生产商虽然推出了P2P流量监控的相关产品,如CAPTECH的网络管理软件——网络慧眼CAP[5],但是由于这些产品采用的都是深层数据包检测技术,因此在性能、开销等方面存在很多问题。
开展高效、准确的P2P流量(尤其是多媒体内容)实时识别与过滤相关技术研究,不仅有利于合理利用互联网基础设施、合理利用P2P技术、合理部署P2P应用,有利于制止非法内容在P2P网络中的传播,也有助于维护中国互联网的健康环境和营造一个和谐的网络社会。
1 对等网络流量检测的困难性
对等网络是一种分布式网络,其中的参与者共享他们所拥有的一部分硬件资源(处理能力、存储能力等),这些共享资源需要由网络提供服务和内容,能被其他节点(peer)直接访问而无需经过中间实体。在此网络中的参与者既是资源提供者(即服务器),又是资源获取者(即客户)。对等网络的代表性应用是文件共享(如Napster)。但是,P2P不仅仅是用于文件共享,它还包括建立基于P2P形式的通信网络、P2P计算或其他资源的共享等很多方面。P2P最根本的思想,同时也是它与客户/服务器模型(C/S)最显著的区别在于网络中的节点既可以获取其他节点的资源或服务同时又是资源或服务的提供者,即兼具客户机和服务器的双重身份。一般P2P网络中每一个节点所拥有的权利和义务都是对等的,包括通信、服务和资源消费。
从分类来看,可以将P2P分为纯P2P和混合P2P两种模式。纯P2P网络中不存在中心实体或服务器,从网络中移去任何一个单独的、任意的终端实体,都不会给网络中的服务带来大的损失。而混合P2P网络中则需要有中心实体来提供部分必要的网络服务,如保存元信息、提供索引或路由、提供安全检验等。
P2P应用的飞速发展,虽然丰富了互联网的内容,但其流量的爆发式增长和不加限制的带宽占用,不仅给互联网基础设施带来了巨大冲击,也给Internet服务提供商(ISP)和应用服务提供商(ASP)高级服务的部署带来了很多问题。此外,P2P网络也迅速成为恶意代码、黄色淫秽内容、反动信息、盗版资源等传播的沃土。
因此,对等网络的快速识别与分类,不仅为运营商提高服务质量(QoS)提供技术支持,也可以为对等网络上的内容监管(如恶意代码识别、病毒防御)提供保障。但是,由于对等网络的内在特性,其流量识别存在以下特殊性:
(1)不确定性
由于对等网络应用的多样性(如文件共享、语言通信、视频通信)等,因此对等网络流量不仅在流量特征上,而且在行为特征上也表现出不确定性。此外,对等网络中节点的动态性也增加了对等网络流量的不确定性。这种流量的不确定性,为实现对等网络的流量识别带来了诸多困难。
(2)海量性
对等网络不仅应用多种多样,而且规模极大(如文件共享式P2P系统Bittortent总同时在线节点可高达100万),因此一般来说,对等网络流量均较大。对等网络流量的海量性,给流量的实时检测带来了性能问题。
(3)加密性
由于对等网络属于应用层,因此为了躲避内容监管,现有P2P系统均对其载荷进行了加密处理。加密特性使得常规的模式识别算法很难直接应用于对等网络中。因此,必须寻求新的流量检测技术与检测方法才能解决P2P流量识别的准确性和可靠性问题。
上述特殊性使得对对等网络的流量进行正确、高效和实时识别带来了很多困难。从技术层面来看,现有P2P流量检测技术大致可分为基于流量特征的识别方法(TLI)和基于深层数据包识别方法(DPI)。此外,网络设备提供商和安全产品提供商也开展了P2P流量识别与监管的研发工作。