RTBDA概述
当被分解到其最简单的形式时,大数据分析包括两部分,以便将自身与数据仓库和商业智能进行区分:
实时行动
分布式,并行处理
大数据分析能够解决处理大量无关且不能存放在一个单一的服务器或数据库的数据集所带来的普遍的挑战问题。而这个问题可以通过使用分布式并行处理分布在多个服务器的大型数据集得以解决,每台服务器处理并行数据的一部分。大数据分析可以与结构化和非结构化数据工作,因为它并不需要一个特定的结构。这种做法的一个例子将使用Hadoop的MapReduce,其也可以看作是大数据对今天的深远影响。
尽管目前有方法来处理大量的数据,大数据处理缩小以便能够在指定的时间内完成。现在,时限这一概念比以往任何时候都越来越都多的与“实时”相关。
尽管RTBDA仍然是一个相对较新的概念,但其解决了实时主动或被动的采取措施的需求。而这是基于互联网内容和服务提供商们了解到了正在发生的事情,检查情况并实时采取行动。
理解“实时”电信
在实时大数据分析:新兴架构大会上,迈克巴洛问道,“所谓的实时到底有多'实时'?”“这取决于你的目标,问题的答案会有动态的变化。在某些情况下,秒或毫秒就足够了,而在另一些情况下,实时需要更快。
这个问题是从电信方面很有趣。它揭示了当前的电信运营商们如果想要成功的解决OTT公司所带来的流量挑战所必须面临的一个潜在的弱点。这样的话,目前在电信行业所能够接受的“实时”的标准就显得不再足够了。
此前,电信网络使用面向连接的技术。程序只能进行集中在一个高度结构化的进程,前一分钟的网络与后一分钟并没有多大的修改,甚至时间跨度一小时也不会有太大改变。在这些情况下,在一致的时间间隔从网络上收集信息就知道发生了什么。该协议的管理信息丰富,能够从一个协议聚集大量的洞察力。在这种情况下,“实时”可以在几秒钟之内甚至几分钟内定义,这就是为什么他们通过每5到15分钟收集呼叫详细记录(CDR)就能充分获得完全的洞察力的原因了。
同样的情形在今天已经不再可能。向LTE的过渡使电信运营商完成过渡到基于以太网和IP的数据包网络,其功能与面向连接的技术和协议是完全不同的。
IP网络的一个基本原则是:网络是自给自足的。网络提供了流量传输的通道,并依据流量拥堵和其他情况进行网络路径重定向。这个特点使网络能够迅速就相关的改变做出回应。缺点是无法确切地预测流量。这种情况又因以太网和IP协议变得复杂,缺乏面向连接的协议所能提供的同等水平的管理信息。
分组传输网络(Packet networks )本质上也是动态的,因为其设计初衷是为多个用户共享相同的基础设施提供服务的。在较长的一段时间,网络的消耗看起来很低,但在现实中流量传输需求很大,可能消耗掉所有可用的带宽。在这种情况下,对IP网络应该做出反馈,确保流量是在稳定的网络上传输。最终,在网络中可能从一个IP包或以太网帧到下一个发生变化。
电信网络管理和数据分析的中心问题是他们都依靠事件详细记录(EDRs),CDRs和IP详细记录(IPDRs)来深入了解实时发生的状况。
在过去,“实时”这一定义每隔几分钟就已经足够了。当我们考虑到以太网帧在10 Gbps网络可以以每帧短短67纳秒的时间在之间以太网帧传输,我们就开始理解在一个分组传输网络的“实时”指的是什么了。在现如今这个快节奏的环境“实时”的概念已经不仅不是分钟,也不是秒来。今天,其是以纳秒为时间间隔了。
|