通信世界网消息(CWW) 目前在国内IDC行业中,还没有专门的跨领域、跨地域互联网行为综合分析的大数据平台。本方案是依托中国电信互联网数据中心运营支撑系统建设项目,建设的面向互联网数据中心的网络行为分析平台,可全面挖掘互联网用户行为信息,整合各类数据并深入分析,为IDC行业提供一个良性的市场导向,搭建一座IDC行业与互联网用户的桥梁。
一、系统架构本文通过对中国电信IDC网管系统、资源系统、合同管理等各种系统的闲置数据进行大数据分析,并结合IDC汇聚和出口DPI的IP流量数据采集,挖掘IDC客户平台运行状况,分析访问客户平台的业务用户行为,以实现数据经营和精确营销。在业务方面,向IDC客户提供互联网行为分析服务,同时提升IDC运营商的服务价值和质量。平台的主要业务模式见图1。
图1 面向互联网数据中心的网络行为分析平台的主要业务模式
基于上述业务模式,研发团队进行大量的技术研究和实验,确定了分布式、面相服务的系统架构,采用基于J2EE的B/S软件架构,核心技术包括:IP包采集与策略控制技术、流量分析技术、海量数据传输与分发、大数据存储与分析技术、互联网行为可视化呈现、基于微信/易信平台开发等。前端使用STRUTS2+AJAX+FLEX进行网页开发,应用层采用JBOSS WEB服务器,接口层基于ESB平台的统一化、规范化的接口服务管控。数据服务层采用Hadoop分布式文件系统和传统关系型数据库Oracle,通过Hadoop实现DPI和网络流量海量数据的存储处理,其他普通结构化数据通过Oracle管理。如图2所示。
本平台采用的关键技术主要包括:
1)基于Hadoop/MapReduce的大数据处理技术;
2)DPI深层包挖掘)技术;
3)实时策略引擎技术;
4)分布式采集和计算技术。
图2 面向互联网数据中心的网络行为分析平台的技术框架
二、互联网行为分析平台的应用本文建设的公众网站平台,为IDC客户提供客户报告、信息服务和业务营销服务。系统需要与电信运营商IDC机房DPI设备对接,获取访问IDC客户系统的访问日志;与IDC业务网管系统对接,获取网络流量、设备/系统性能和告警等网络监控数据;与IDC资源系统对接,获取机房、机架、U位、设备、端口等IDC资源信息;与CRM和计费系统对接,获取客户、订单、合同等业务数据;与AAA系统对接,获取用户IP账号对应、地址归属等信息。系统通过接口适配完成上述对接系统的数据采集和监控,采用hadoop集群和nosql数据库技术,利用分布式计算和存储技术,实现海量DPI数据和网管流量数据的采集、存储和挖掘分析,而其他事物性数据仍旧使用传统的RDBM数据库进行管理。
1. 互联网行业分析 A、网站排行分析:包括分行业网站的排行分析以及全网综合网站排行分析。用户可以输入其关心的网站的域名,查询出该网站的访问量和在模糊占比;网站行业分类的维护,系统首先将当前的主流网站进行分类,并允许用户自行定义和添加网站及类型,经管理人员审核确认后增加进去,循序渐进,逐步收敛和完整。
B、流量流向区域分布:分析省、市区域之间的流量流向情况,通过查看流量的走向分布和发展趋势,为IDC客户进行系统扩容和调整市场方向提供支持。如图3所示。
图3 流量流向区域分布图
C、应用流量分析:从应用角度分析IDC流量分布情况,帮助IDC行业了解互联网应用的发展。
2. 网站访客分析通过挖掘IDC的DPI数据,准确分析访问客户网站平台的网络流量和用户行为,为IDC客户提供客户报告和信息服务。
包括:访问趋势分析;访问地域分析;搜索引擎分析;搜索词分析;外部链接分析;运营商分析;实时访客分析;客户端信息;访问入口分析;新老访客分析;忠诚度分析;用户兴趣分析等。
3. 平台概况平台概况用来展示IDC客户自身系统的基本运行情况,如图4所示。
图4 IDC自身系统运行情况
A、今日浏览量:PV访问量(Page View),即页面访问量,每打开一次页面PV计数+1,刷新页面也是。
B、IP访问数:IP访问数指独立IP访问数,计算是以一个独立的IP在一个计算时段内访问网站计算为1次IP访问数。在同一个计算时段内不管这个IP访问多少次均计算为1次。计算时段有以1天为一个计算时段,也有以1个小时为一个计算时段。