Kyligence周涛:BI分析平民化

责任编辑:田小梦 2018.10.19 15:50 来源:通信世界全媒体

通信世界网消息(CWW)10月19日,“数享家峰会暨数字孪生发展论坛”在京召开。Kyligence公司解决方案副总裁周涛带来《BI分析平民化》的主题演讲。

image.png

演讲全文如下:

周涛:大家下午好!

我是来自Kyligence的解决方案VP 周涛。刚才听了袁总的介绍,让我很激动,讲到了数字孪生、城市大脑,、智慧城市,我们能够期待看到未来或者美好的景象。接下来我讲的内容可能把大家从理想拉回现实,理想很丰满,现实很骨感,所以我讲的内容更加偏大家日常每天处理的事情相关,叫BI分析的平民化。

今天主要分享一下作为一个BI的厂商,配合企业,客户在BI平民化上做的实践,特意邀请到了我们的客户,他是来自银联的专家,跟我一起做这个分享,讲讲他们在BI平民化做的事情。

为什么要讲BI分析?其实大家在很多场合里面会谈AI,谈数字孪生,但是这是2018年做的一个全球三千家CIO关注的技术重点的排名。大家可以看到,这张图右边三列是国外所有的参与这个调研的CIO,有两千多家,左边是56家参与调研的中国的企业,可以看到所有的CIO关心的排名第一的技术还是在BI分析。这也是说,我们可以看到,很多我们跟客户交流的时候,会碰到无论是客户IT部门还是技术部门都会跟我们聊,我们今天在外面谈AI,外面回来还要做报表,这是我们碰到的实际情况。所以可以看到在企业里BI分析的技术并没有过时,而且大家一直在持续关注,是需要我们关注的一个领域。

BI分析平民化什么意思?大家可能也听过数据科学家的平民化,那个可能是一个更新的词。但是站在我们角度来说,看数据科学家的平民化还很远,因为我们连数据科学家本身需要做什么?它本身是什么意思?还没有定义清楚。但是我们在国内BI分析已经非常成熟,BI分析怎么落地平民化?我觉得是我们切实能做的事情。

首先我们在BI分析平民化这几个字里面分两步,首先看BI分析,右边这个图大家熟不熟悉?从我个人来说,在数据分析这个角度有20年的时间,这个图大家应该非常的熟悉,我们最早叫五个球,就是数据仓库里面的,或者BI分析里面进化的五个球。它分别定义了:

1、报表,报表解决了什么?

2、分析,为什么发生?

3、预测,将要发生什么?

4、实时,正在发生什么?

5、动态,想要发生什么?

为什么大家会觉得大数据跟BI分析还是不同的事情,可能更多的认为做了这么多年的BI之后,很多人觉得做BI就是做报表,上个月在公司面试的时候,我面试一个大数据的,来了一个做Hadoop非常资深的,聊完之后我问他有没有做过BI的东西,有没有相关的技术理论,他当时以非常鄙视的表情问我,你说做报表吗?我没做过。其实非常受打击。

BI不仅可以做报表,BI也有更丰富的体系。在大数据时代,BI分析其他的形式,已经越来越被提倡,或者说被呼吁需要去做,比如说多元分析、灵活查询。我希望在我看到问题的时候,我随时都能够去查数据,我能知道这个数据产生的原因是什么?比如实时的交互,我能在客户进入我第一现场的时候马上拿到这个客户的信息,针对他的动作我能推荐我的什么东西?这些都是我们在BI分析里面我们希望能做到的。

第二个,BI分析的移动化,其实现在人人都有手机的阶段,其实很多事情,很多工作人员他们的工作环境已经不是在一个电脑旁边了,其实手机已经成为了每个人日常需要携带的设备,甚至你工作里面可以用到的设备。其实在移动化上面,你怎么能把BI分析能力分析出来?这也是我们需要突破的一个方向。

下面讲什么叫平民化?平民化比BI分析内涵更加深一点。右边这张图还是我们传统对BI分析用户的一个分类,我稍微做了一个划分,大概分几类:

1、管理层,后台管理部门,主要是做数据分析。

2、数据分析师,包括数据科学家,也可以理解在这个层次上,其实他们日常工作就是跟数据打交道,去通过数据去做探索,挖掘我们需要的一些业务的洞察,或者是我们的一些业务的驱动。

3、一线业务员工。这些人为什么对数据有需求?从我个人的选择,进入大数据时代,不仅仅数据在爆炸,其实我个人感觉是数据的需求在爆炸,大家其实对数据的重要性已经上升到一个超过以往任何时代的地步,无论从高层到下面的员工,都已经认识到我需要数据来支撑的业务,或者用数据来支撑我的工作,这个时候带来的就是数据需求的保障。对于很多IT部门来说,我要支撑整个无论是一线员工的需求,还是外部合作伙伴的需求,甚至客户的需求,都是面临很大的压力。

4、合作伙伴、客户。更多要谈到数据变现,不但可以拿数据来做支撑,对外也可以把数据转化带来价值,把数据作为资产去运作。

从传统做BI的角度来说,大概只满足了20%需求,我们数据分析人员,部分能力比较强的可以去数据库里面挖这个数据,但是绝大多数他们看不到很多数据,他们日常业务里面绝大多数还是靠拍脑袋。我们站在平民化的角度来说,首先我们数据应该推广到所有的一线员工上面去,因为让每个人都能够通过数据本身来驱动他的业务,来驱动他日常的工作,这才是我们平民化的概念。

平民化不是说我把数据给你,你就能用起来,对于很多一线业务员工来说,你把数据给他,或者我开放了一个BI工具给你,我开放了一个什么APP等你,但是如果你的易用性、操作性没有下到一定程度的时候,也不行,一样需要技术的支撑,让他有很好的用户体验,才能把这个数据真正做的起来。

这是我们想谈的数据分析平民化的一个内涵。

我们在这个里面做什么事情?其实又回到刚才,为什么数据做了这么多年,它的平民化一直做的不好,他的痛点在哪里?我大概列了一下,无论在过去还是在现在,首先数据量都是一个非常头疼的问题。在以前的时候,可能还没有Hadoop,或者分布式技术的时候,无论你是用数仓、一体机,用很牛逼的机器做这样事情的时候,其实本身来说它都支持不了你把这么大的数据能够以很简便的方式推到一线员工去做交互式的分析。更别说,需求灵活各种维度上面的分析,因为一旦你把数据推广到一线员工和客户,我们可以认为这是一个互联网级别的应用,对并发的挑战其实也是非常的大。原来在传统的BI工具的产品,其实都是一种单机的形式,要去做这种海量数据高并发查询的时候,其实它的技术本身就受到了限制,而且这本身又是一种封闭式的产品,所谓封闭式就是纯商业化的产品,它的技术也没那么容易去主导,能够去按照你的要求去走。

其实在大数据时代,我们为什么可以在这个时代去做这个事情?首先是数据的重视度已经达到了一个前所未有的高度,无论从我们的领导层面,还是下面层面,其实大家对重要性都有很深的认识。所以无论是从上到下,还是从下到上推动起来都比较容易。另外我们现在有了很多新的技术,包括Hadoop的技术,包括分布式技术,包括人工智能技术,本身在你支撑海量数据的存储、计算以及做查询访问的时候,它都能保证一个很高效的性能,能够支持这样的高并发。

其实AI跟BI什么关系?我个人认为AI可以辅助到你BI里面,让你变得更加的简单,这个阶段,技术本来是有所突破在BI技术里面碰到的难点。现在这个年代里面,技术能够有这么很快速的发展,其实跟开元文化是脱离不了的。开源对各个企业,无论是厂商还是企业,其实让获得技术的门槛都大大降低了,才使得技术的发展这么快。所以在大数据时代我们有了更充分的条件来辅助我们BI技术更好的向平民化这个阶段去推进。

接下来介绍一下我们是做什么?左边我不知道大家有没有听过?Apache Kylin,这是全球第一的OLAP on Hadoop项目,首个中国Apache顶级开源项目,第一个中国做出来的开源项目。本身来说的话,这个开源项目我们从2015年开始做,2016年成立顶级的项目,我们现在全球已经超过一千家生产的用户。如果是互联网的同事在这里的话,基本上都听过这个名字。包括BAT,包括今日头条、美团、大众等等都在使用我们的技术。这家公司是基于我们开源项目来做一些商业化的产品,我们提供商业化的产品和服务。

简单用一页做一下广告,我们大概解决什么样的问题?我们把我们BI分析平民化分成三个阶段,开放、智能、融合。你的平台越来越多,你的数据越来越多的时候,你的数据是割裂的。站在某个角度上来说,做大数据分析,你一定希望是一个融合的,我能让我的用户,我的业务访问到任何需要的数据。我们的平台可以对接各种各样的数据源,包括流式的数据源,包括Hadoop的数据源。

智能,我们也是以开源为核心,我们在上面会用到一些AI的技术,整个企业会把这个开源产品用的更好。它会智能的加速访问,这样你的业务部门来访问你的数据,你要让他把这个数据真正用起来,它的响应速度要快,我们希望所有的查询能够在亚秒级的响应。智能路由,什么意思?因为你的数据分布在不同的地方,你要让一线员工知道在哪查数据,你要自动让他查到。

对于上面来说的话,我们能够提供各种数据服务的能力,我们叫开放,我们可以跟各种现有的企业内部的BI工具做对接,我们也可以提供API,提供自定义的平台,或者是BI分析的工具。这样的话,本身来说,我们也只是高并发访问这样的场景,这样的一个现状下面,你可以把一个数据发放给你的,无论是你的数据分析师,还是数据科学家,甚至你可以把你的术语发给你企业所有内部员工去访问,包括你的外部客户。

这是我们大概总体的解决方案。

这里是现在已经在全球做的一些客户的情况,其实可以看到主流的基本上前面也提到了互联网公司,基本上都在用我们的产品,在国内也有众多的商业客户,包括金融行业里面银联、招行、建行等等都是我们客户。接下来,我们会在客户案例里面跟大家分享一下这些企业怎么用到我们产品来做这个BI分析平民化的?

首先我这边会邀请银联的高级客户经理王经理,来给我们分享一下银联在这方面的实践。

银联经理: 好吧,现在这个时候我上台,怎么变得不灵了?我感觉我是不是平民的代表?还是更多平民都被我代表了?我简单介绍一下,我来自于中国银联,在银联呆了超过十年的时间,今天借这个机会来分享一下我自己和中国银联在数据行业和大数据方面做的一些事情。

首先还是不落俗套以所谓的挑战开始,今天看到有这么多朋友,大家都坐在这边,在周五的下午,阳光明媚有这么多朋友坐在这边,可见所有的人跟我一样,也是面临着巨大的挑战了压力,希望在这边要么寻找一些解决方案,或者最差的寻找一些同病相怜的人,互相取暖。

所以作为一个数字人,上面的场景大家应该非常熟悉,我们的客户非常多,在企业内部上到领导,下到每一个一线员工,都向我提各种各样的需求,包括我的外部用户,我的供应商,我的合作伙伴都向我提各种各样的要求,这种要求五花八门,包括各种报表,月报、周报、季报,包括大促之后要有评估,要有预估,包括查询各种数据。做这些需求无所谓,但是有一句话大家应该记忆犹新,我的同事经常跟我说“兄弟拜托啊,我只要一个数据为什么这么慢?我只要一个销售额,我只要一个销售指标你为什么给我拖两周三周?为什么?”这是我们遇到的最大的挑战,因为我们的数据分配在不同的地方。

前段时间,我们领导还跟我说,第一要关注网络上的一些舆论的情况,要去分析一些舆论上面的一些情况;第二要在我们每一天上TB的日子里面去分析一些隐含的生产事件和生产问题。天啊,我们面临的困难,面临的压力如此之大。

但是我想说的是,我刚才讲的这些困难,这些压力,其实昨天存在,今天存在,明天其实还存在。所以说我最想讲的是,我们面临这些困难,这些压力,我更想把它称作是我们数据人的一个使命。我们数据人的使命是什么?简单来讲要发挥数据的价值,数据的价值在哪里呢?比如一颗钻石,我看今天有很多妹子,你们觉得钻石的价值在哪里?钻石的价值我个人觉得,在于它陈列在博物馆、保险箱里面,告诉大家我多少克拉,多少金额,这是钻石的价值。如果几克拉的钻石丢在街边,超过100%的人会认为这只是一个玻璃。

那么数据的价值在哪里?数据的价值跟钻石的价值恰恰相反,包括我们这个主题也是数字孪生,数字孪生是什么?用数据模拟现实,用数据解决现实中的问题,所以数据的价值在于使用,在于更多的人能够使用到价值,越多人使用数据越能体现数据的价值。所以今天这个主题我个人还是蛮欣赏的,就是BI分析的平民化,让更多的人使用到数据,而不是把数据束之高阁。

下面我给大家介绍一下整个数据分析阶段,我们银联做了哪些事情?在大概7、8年左右开始到前几年,主要是数仓流行的年代,这是一个典型的数据仓库的架构。做的最开始是下面这一层,把所有的数据做了一个集中整合,从各个不同的数据源,建一个数仓。在数据仓库的情况下,用来反映企业的运行情况,做了一个数据分析的集群,然后用来去整合了整个数据分析,提供一站式的数据分析服务。这套系统其实还是比较健康的,运转了5年到8年,在这5年、8年的时间里面,至少我们企业由纯粹的拍脑袋决策,到用数据去分析、去支撑,拍脑袋决策的效果,以及为下一次拍脑袋做好充足的准备。

但是时间的车轮滚滚向前,现在的数据翻倍越来越厉害,现在到了所谓的大数据年代,更多更多的一些挑战和更多更多的一些新的事物出现了。比如说像我们原来组织架构上,从一个以职能型为主的部门之间相互协调的一个组织架构,变成了一个以小的BU为主的,以满足市场服务为主的一个体系架构。所以说那么有更多的市场人员,更多的一些个性化的数据分析的系统需要接入过来,需要使用数据。包括现在人工智能这个概念也兴起,有大量的数字科学家在这个方面进行计算,包括我刚才提到,有各种舆情数据,各种非结构化数据需要加工,以及数据膨胀以后,在关系数据库里面对数据加工和处理的瓶颈都体现出来。所以在2012年左右,大数据的技术方兴未艾,我自己和银联也投入到整个大数据相关的工作中去。

这一张讲的是在当今时代银联对大数据本身的思考以及我个人对大数据的思考。大数据本身我个人觉得,在数仓年代是关系企业数据库的整合,提供统一的数据分析。在大数据的年代,我个人是觉得,在数据进一步融合整合的基础之上,是统一用户视图,支持丰富的数据应用。同样的讲台上,今天上午我们也有银联同事有个专题演讲,讲的是金融科技以及银联在金融科技背景之下做的很多业务场景。所有的业务场景其实都需要我这个部门作为大数据平台,作为落地支撑来实现。所以说我们整个银联在整个数据场景的基础之上,应该是通过四大方面做了支撑,包括人工智能,包括在线服务,为我们银联的连机系统,为银联的业务系统提供的大数据服务,包括海量计算,把整个基于数仓的数据分析,提升到大数据分析的能力,包括实时计算。那么通过这四个方面,去支撑我们海量的,或者多样的一个数据应用。但是数据应用是多样性的,它更加需要一个统一用户视图的系统来做支撑,这样才能满足应用的多样性以及有序之间的关系,否则多样会变成乱序。

这个图虽然比较漂亮,其实这张图的形成也是经过了银联确实三年多不断的摸索,不断的迭代而形成的这张图。最开始肯定还是把大数据进行整合进来,形成了大数据和数仓的一个双赢数据结构,这个时候用户造成了巨大的困扰。大数据是大数据架构,数仓是数仓的架构,这个怎么办?天然的,我们加了一层访问策略,但是现在有各种各样的数据处理任务,这个时候我们就把你所有的所需要的任务,所需要的配置文件,全把它封装成执行容器,用户只要关注业务逻辑,那么这个业务逻辑所需要所有的环境变量,我重新帮你做掉。

那么安全也有了,执行容器也有了,我大量的任务跑,我的资源冲突怎么办?我的任务调度怎么办?没问题。执行计划、资源、分配,两个模块也出来了。这些都完了,我们运维团队又开始提要求了,没问题,我所有这一切帮你都做了,我当时觉得我的工作完成了,既把大数据和数仓也建好了,也满足了各种各样所谓的数据访问要求,我觉得我的工作使命结束了。但其实万万没想到,真正的大麻烦才开始。

刚才我提到了旁边这一圈蓝色的东西,从企业的投资上来讲的话,是比较容易被企业的一些执行者和有企业的一些领导所关注,所能了解的,因为你做的任何一个工作,他们是看得到、摸得着,也是能够解决企业中一些问题。恰恰是中间这三大块核心代表的能够,往往是隐含在外表之内。我们经常说冰山之角,99%的内容都是在海底下,所以中间的三大块内容,数据架构、数据已经形成往往含在水面以下,这块工作就属于你做好了没人知道,你做不好大家都认为你不行。所以我们有时候经常在团队里面开玩笑,我好不容易收集好了七颗龙珠,神龙在哪里?神龙没有,我们自己造,所以我们做了Tornado这个系统,来做数据加工服务。整个Tornado确实带来了包括性能,包括安全方面的一些问题,这个时候也不知道是我们的真情打动了上天,还是说冥冥之中自有天意,我们跟Kyligence公司有一个偶遇,慢慢从开源版的Kylin引入到使用他的企业版,以及到现在我们跟Kyligence有一个深入伙伴式的合作关系。所以我们银联现在在往实时的数据方面正在做。

刚才讲了这么多,最后我简单分享几个数字,银联在Kyligence的技术支持有这样一个使用情况。这是我们最开始做的测试的一个数字,我们这个是在200个VCores,400个Mermory上,它运行的现状是,它能够替换掉我接近800个Cognos CUBE,我这个CUBE整个响应时间,60%左右在秒级,90%以及在3秒以内的返回。整体来讲,Kylin从本身从性能上来讲,是有一个量级的提高。

我对Kylin的认识倒还不是简单的认为它只是一个架构上的提升,或者理念上的提升,更是理念上的一个提升。原来我们用商业软件作为我们主要的解决方案去解决我们实际问题的时候,更多的强调是说,我们在软硬件技术选型的时候,要尽量保证软硬件架构的稳定。但是现在互联网+,一方面开源软件学习多,对核心技术的把控力月  。另一方面,在互联+时代,对用户体验越来越强,大家强调的的是用户体验。所以这个时候我们选择了Kyligence,在于Kyligence本身开放和开源的特性,它有开源版本Kylin。它在接口层也是开放和透明的,所以我们银联目前来讲只是使用了他们一个核心的计算引擎,整个用户UI上面所有的工作,我们是做了替换,是用我们银联整UI的层次替换Kylin整个UI层。

这个就是我个人,以及我们中国银联在整个大数据,包括从报表到数仓,到大数据,和大数据分析阶段做的一点点工作,给大家做一点分享。

话筒还是交给周涛。

周涛:谢谢!谢谢王总给我们的分享。

接下来我再跟大家分享一下其他几个案例,跟银联很像,Cognos大家知道是个BI工具,太保跟银联做的不一样的地方是,相当于站在太保的角度上来说,他会觉得我的用户已经养成了用Cognos的习惯,但是他们对企业不好,他们希望解决这个问题就行了,不要影响我业务部门的使用,不希望动作太大。但是站在这层面上来说,他们找到IBM一起来探讨这个问题,我们双方能不能把这样的问题解决?大家也知道IBM基本上不在意这个问题,我们帮太保打通了产品跟Cognos之间所有产品线之间的对接。其实我们花了很大精力做这个事情,但是我们发现这个很有价值,也是体现我们国内从服务方面、研发方面能做到这个深度。

第二个,我们帮他们做了业务数据和财务数据的整体分析,无论从监管还是运营的角度上来说,保险公司非常关心我保险公司的赔率和营销费用上的相关性是什么样子?通常来说我的赔率越高,我没有必要花太多的营销去推它,因为这个不怎么赚钱。但是赔率越高的,我会花很多的精力去做。原来实现是相当于我两边数据都没有通,业务数据是业务数据,财务数据是财务数据,而且我所有分析都是业务数据拉出来,把这个数据导在SaaS里面,用一种数据挖掘的东西去算相关性,然后再反馈给业务这个上面是什么问题。我们帮助太保把两个数据融合在一个平台上,相当于他不用把数据搬来搬去,自己就可以把整个过程实现。

这样一个转变带来的是他们的相关性原来在-0.5,现在能做到-0.8,我能在我最费钱的,或者收益最不好的产品上,降低我的营销费用,马上得到业务上的一个响应。

接下来,再跟大家分享就是我们的建行,我们帮它做到了把所有KPI的管理指标,大家知道大家都需要看,我们帮它推到了全行40万的员工,每个人在手机上都能看到。这样你要有大量的数据计算和高并发的支持,这是我们在建行做的,今年建行还跟我们在美国纽约的Strata大会上去分享他们用我们产品怎么做这样的事情。

最后跟大家分享一个,还是在银行,在招行,在招行做的一件事情,就是把BI做成一个服务推给他所有业务部门。我们作为一个中间平台,大家可以看到每个用户,或者每个客户他本身的使用方式都是不一样的。招行本身来说,站在他金融科技这样一个定位角度来说的话,它是真正的希望我的IT人员都从技术本身释放出来做更多的事情,把数据服务,数据本身都推到业务部分,我们实际在招行做的事情,把它的底层数据,它有好几个Hadoop的平台,数据本身已经做的非常融合,它的数据怎么样开放出去?它希望能够把这个所有的数据,你的业务部门只要告诉我,你要什么数据就行了,我IT没有你懂,我也不想懂,我应该做的事,我把整个基础设施做好,所以在我们这块平台上来说,我们打通的是底层的业务跟上层的BI工具搭建一个桥梁,你们想要什么样的数据,我们只做资源的管理和数据权限的管理,你把数据权限告诉我,我可以把数据权限开放给你,这个时候你上面怎么用,怎么建模?那是你业务自己的事情。

所以基本上它可以把我们数据的服务当做一个云的服务在行内去提供,我们现在跟招行一起做的事情是面向它全行80多个部门去提升数据服务的能力,你可以用我统一的BI分析工具,也可以用你每个部门自己用的BI分析工具,都可以在我上面做这样一个数据分析服务,我只管权限和资源的使用,其他怎么去用数据,怎么分析数据?那是交给业务部门自己去做。这真正体现了我们能够把所有的数据推到一线去用。

好,我们今天的分享内容大概就是这样,非常感谢大家,然后我们在外面的展台,如果大家感兴趣的话,我们后面继续聊,谢谢大家!


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容