|
运营商借数据挖掘提升市场敏感度
http://www.cww.net.cn 2012年5月15日 09:26
2.建立数据仓库或数据集市 按照分析主题进行重新组织,建立主题事物表(包含用于分析的测量值和连接维表的主键),包含有关维表(含维属性值和与事实表连接的代理键)的星型结构或多维数据库,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据,以支持用户多角度、多层次的分析,发现数据趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据库中,这是一个系统工程,是一个不断建立、发展、完善的过程,需要较长的时间。 3.利用数据仓库技术进行第一级数据挖掘 分类即区分数据类别。首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对未分类的数据进行分类。而估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理的是连续值的输出,同时分类的类别是确定数目的,估值的量是不确定的。由于电信业务原因,没有估值,仅进行分类,可以从中产生数据分布图(散布图)。对于关系模型,利用DISCOVERER进行分类,钻取,数据过滤,分层次数据选取,建立相应的报表格式,为二级挖掘提供数据;对于多维数组模型表示的结构,发挥EXPRESS工具的便于针对矩阵运算的优势进行操作。 4.在数据仓库基础上,利用相关的统计分析理论建立数学模型,进行第二级数据挖掘 。 第一,预测,即是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。主要利用时间序列分析,线性分析,回归分析,多元统计分析,灰色预测等方法进行。例如:业务收入预测,客户风险预测,业务实施情况预测等。 第二,关联规则和聚类,通过分析数据或记录间的关联程度,决定哪些事情将一起发生。将记录分组,把相似的记录在一个聚集(反映数据之间的关系)里。聚集和分类的区别是聚类不依赖于预先定义好的类,不需要训练集。如相关业务密切程度分析等。 5.给出分析结论 利用决策树,神经元网络,灰色决策等方法进行决策分析。 6.代入实际数据,进行一致性验证 不断校验误差,修正模型,提高精确度,进行效果监控,优化分析结果,同时修改相应的决策行为。比如:一段时间某两项业务关联度高,然后出现异常,关联度降低,那么在转折点的分析将出现较大偏差,因此要进行连续的检验,以保证及时发现问题,修订策略。 [1] [2]
来源:通信世界网-通信世界周刊 作 者:杭州市电信规划设计有限公司 唐黎标编 辑:高娟 联系电话:010-67110006-853
文章评论【查看评论()】
|
企业黄页 会议活动 |