IBM房树新:详细介绍IBM在电信行业大数据的实践创新

责任编辑:孟月 2017.06.15 16:37 来源:通信世界全媒体

通信世界网消息(CWW)

房树新.jpg

IBM系统硬件部电信行业技术总监 房树新

房树新:

很感谢各位到现在还在这坚持。我发现今天我们这些演讲嘉宾声音都特别洪亮,一个再过一个可能也是怕大家困,也可能就是本人就是机枪澎湃地在阐述自己所的理解和自己公司的产品,我节省时间,我可能是跟大伙介绍一下IBM的在大数据区里面的经验分享,刚才也有不同同事提到过现在是X86的时代,是去小型机的事,我这是IBM一直在做小型机,做了二三十年,大伙可以看到,就是说IBM也是在转型,也是在研究用户,不光是一个服务器,更多的是一个从解决方案上在与时俱进,所以说我今天的这个演讲内容可能就分成三部分,就第一部分是大数据里面的,我们的一些实践案例,然后第二个就是谈一下IBM在机器学习和深度学习这一块有什么样的一些决方案,还有我们做过的一些案例分享,然后其次总结一下。实际上谈到大数据,自从大数据解决方案出来以后,我们完全就能支撑。刚开始就是支撑的是阿帕奇开源社区的东西,像烤肉干的呢,因为他是在X86平台上做的,所以说基本上在抛离你泡泡平台上不支持。

这个是从原数据的管理和平台的管理的角度,我们看到两个产品是稍微有一点差异性的,不管他是企业版还是那种简易板,全是免费的。我们简单的举几个案例,就其中一个案例,就是在几年前我们在一个电信移动运运营商一个大的省份占前三的,就是做了一个就是精分大数据的改造,在这里面就是说除了核心数据库还是用的db2,构建了这样一个大数据的平台,原来是用的是开源的这个这社区的版本。今年就用了60台机器重新去支撑原来112台机器,这样一个就是流量经分、实时营销要一个应用系统。

然后我们知道就说IBM可能在有硬件部门、由服务部门、有咨询部门、还有软件部门,然后也收购了一些软件公司,实际上大伙知道在高性能运算里面都HPC里面用了它得很多的模块,比方说作业调度模块,比方说它的云的模块实际上在大数据里里面他也有两个很好的东西,GPFS南方的一个移动的省份。

所以说这个案例就是从一期发展到二期,现在已经是变成了中国移动南方十几个省份的很多的数据汇总的中心,因为它要建一个基地,然后同时通过这样的一个平台展现,不管是速度还是性能,然后都得到了就是一个很好的满足,然后从经济效益上来讲,现在都讲究什么变现。从2015年的时候他这个省份在大数据里面收益已经是超过3000万了,这是一个比较成功的案例,然后他发展到二期了以后,把一期二期的两个大数据的群做了,一个就是互相的一个备份,就来运行不同的作业系统,这是这样一个案例。

另外一个案例是做这个网管网优的优化,给客户画像、给网游的客户分群,然后尤其网游的客户的流失,然后怎么能够去帮助客户去发现趋势,然后去增加这个收入,我不细讲了,这就是当时没建这个网络大数据的时候,用户面临着四方面的困惑,然后怎么解决这个困惑,我们就从采集层一直到用户的基础数据的保存层,一直到动态、静态、用户网络画像的行程,一直到满足上面的就是各种各样的应用,比方说这个覆盖分析、感知分析、投诉预测分析,然后投诉处理等等的,这样的话就一下子把这个省份,他的网络的分析质量就提升上去,这是一个大数据方案,那现在就发展到了,就说我用机器学习的方式,怎么能够去构成一个用户画像的重要指标的一个分析?防止人为的经验的干扰,那准备用SPSS或者R语言,然后再去进行重新的去优化和改造,这是现阶段。

前面我很快的,就是举了几个案例,在阐述IBM的在电信领域,然后我们做过了一些事情,实际上就是31个省份。我们有很多省份都参与了,就是从硬件平台的选择和软件平台的选择和运维和服务支持。所以说我们就说运维这个方面都能够给用户提供。我们现在花一点时间就谈一下这个机器学习和深度学习,大伙知道就是IBM现在就是在夜间倡导的一个概念,叫认知计算,尤其是以IBM的沃森机器为主,现在就是说在国外很多的数据都汇总到沃森上,来预给你来进行计算。根据技术分析,然后你就是你的API,就是进行数据的处理就行了,实际上就是上午的嘉宾,还有刚才那个一厅的嘉宾也都说了好多说深度学习,基于学习,实际上这些东西也不是一个今天刚出来的东西,为什么今天热门起来了?就是有一些像IBM这样的硬件的能力的公司,包括像英伟达这样的做这种GPU的,这些公司再加上过去的机器学习、深度学习、神经网络的那些结合,能够硬件软件的组合,能够解决原来只能处理简单神经网络的这样的一个需求,现在能够进行到更多层的神经网络的处理,所以说就是有人说现在到了一个认知时代的到来,这是一个历史的积累,再加上硬件技术和软件技术的结合才这样的。

那IBM在这一方面现在是走在前面的,走在前面能提供几个什么?首先在对底层硬件平台上,我们提供的一个很强的处理能力。因为你我们知道现在像google等等的他积累了很多开源的算法。我们要是解决一个企业里面各种各样数据的时候,可能是算法适合这个,算法适合哪个。我怎么能够建立一个人工智能的一个资源,我能够解决各种各样的问题,我能做同步训练,我也能做一部训练对吧,那这时候就需要一个平台,那IBM就等于是说整合了各种各样的机器学习、深度学习的框架,在这个基础上,我们可以提供超参数的优化的这样一个选择,我们可以支持一个基于spark的技术的结合,支持异步训练和同步训练,我们可以做分布式的这种调度。

这样的话,你作业过来了以后就可以通过这样一个组合的平台,就可以做训练、部署做推测。能够把训练的时间大大的降低,能够把作业能够分发在有gpu的和没有gpu的有ftppgA的等等的这样一个统一的资源池上来,这样就构成了一个深度学习的训练的资源池和生产的资源池一个组合的东西。然后同时我们知道在训练的时候时候,经常由于各种各样的原因失败了,如果训练了好几天失败了,这很可惜的。那能不能通过一个图形界面在实时的监控训练的过程呢?等他发现有异常的时候就提前终止,然后我去调整参数,我再去进行重新的去优化,然后再去训练,所以说这个界面一个很好的规律的界面的一个很有必要,所以说IBM就在一个深度学习平台里面,能够把这些内容都组合在一起,构成IBM的一个深度学习解决方案,基本上这张图也大概对刚才讲的进行一个阐述。

既然是不是一台机器进行深度学习的训练和部署,有很多机器。底下要不要共享一个分布式文件系统,那就是底下可能就有一个分布式文件系统的支撑,然后有一个这种SAD这种盘的一个快速的存储的支撑。再加上中间的各种各样的这种流行的这种深度学习的算法,上面再加上我们的学习平台,就构成了我们一个端到端的堆站,在这个堆站里面就提供了各种各样的好处,缩短训练时间,支持异步和同步能够后去很图形化的监控训练的过程,然后同时对超参数,我们可以进各种各样的组合,给你推荐出一个很好的超参数出来,这些都是就说这个平台提供的好处。

这样的话,大伙如果再做深度学习开发的时候,基于这个平台做,那就会得到刚才说的各种各样的好处。目前这个平台我们做的大量的案例在哪里?人脸识别、图像的分类和检测、语音识别有关业务分析方面的。然后有关风险控制方面的还有这种缺陷检测在这几个方面,在平台方面刚才说了,有可能为了加速训练我就需要有几个节点带gpu,但是gpU很贵,真正的就是说训练完了以后到部署和使用阶段,我为了降低功耗,我就有些节点用FpgA、FPG比gpU便宜,然后他好战友也比较少。

这些都是跟英伟达合作跟各种板卡厂商合作,这是IBM就是构成了一个新生态系统,就是业界组合,就是一个深度学习平台,那下面我们介绍一些案例,这些案例有结构化、非结构化的数据分析,比方说在银行里面对股票指数的分析,我分析第二天股票指数是什么样?因为根据前一天一千个小时的股票的交易情况,我预测第二天是什么样?这就是一个很好的深度学习的一个场景,包括在金融里面VIP客户,这也是电信里面,也可以用到。VIP客户为什么流失了?流失的时候有没有预警?就对它进行分析。还有一个就是集群的工作负载分析。刚才黄总介绍了日志里面的就是一个走向了智能运维,实际上是IBM也在就是说帮用户来就是传智能运维的解决方案,不是我们就是提供的方案。我们是提供硬件和人和技术这一块的东西,再一个就是大量的就是深度学习,大伙都公认最适合用在图形图像上,所以说在广电在线涉及到图片的、涉及到视频的这一块都可以。

比方说在保险领域的在线开户、票据的识别、信用卡的这种识别,然后ATM机的取款的人脸遮挡的识别,这些方面是就是最容易上手的。我举个例子,就VIP客户的流失是因为它的价格和产品有问题流失了,还是他的服务流失了,还是说这客户经理走了把人员带走了,流失了,还是我促销手段不够流失了。还是因为我的技术手段不够客户化,就是客户感知不好,我就用更好的一个产品去了,这些都可以通过深度学习的方式进行挖。,另外一个就是说在图形、视频当中比方说在这里面影像中当中要分析人在做什么?它里面有没有举止,是否健康合规,有没有一些黄色的内容在里头,然后在这里面,这个人脸在这个视频里面,就是说是不是占了一个主画面,然后包括这个人是不是一个敏感的人,比方说现在咱们政府都在反腐,如果这个人犯了错误,中央电视台在放录像的时候,在放片子时候就不允许出现这个人了,说是现在都要把它挑出来,所以说这大量的就是说视频的工作要分拣出这个不合适的人挑出来把它剪辑掉,这些在用深度学习去发现去处理,就是大大节省了人力和提高的准确性,还有一些在视频当中敏感目标,比方说有藏独的旗帜,然后有一个就是图案是不合适的,都把它捡出来。

实际上我不用细讲了,实际上就在视频里面有很多的这种场景,是需要深度学习这样做的,包括视频里边的内容的分类,然后他自动的节目的编排都是可以的,然后我这举一个例子,在保险行业,现在用户都实现了用手机APP来进行在线的开户,那在线开户里面就需要这个用户要写38个字,就是本人就阅读了什么保险的什么合同?然后等等的,我们不是经常弄,签合同的时候要把照抄那两行字,手写,那你手写的这东西是不是很潦草,是故意抄错了还是怎么着?这那就把了38个字,作文图片就是把它定下来跟真实的人,手写的那个进行匹配。

如果他写的不合格,就给它分解出来对吧,因为以前都是在这个营业厅里面,现场做的人可以马上检查,现在是通过手机APP做的时候,那深度学习的图片的就做,包括拍了个照片那它它是用的旧照片还是用的。拍的照片就是用这个来中包括它签名,它签的是假名还是跟系统的,曾经有的他签名要比对,所以说这也方便给大伙一个启发,实际上都可以。就是说结合到有一些人说,我搞深度学习,我这个行业用户没有图片,实际上是有的,就看怎么用了,所以说现在就是说有些公司的领导就逼着我们的架构师,说你要想深度学习的场景,就把大伙逼疯了,就想出各种各样的场景来,有些这可能是比较搞笑的,但是我举得这几个例子都是确实能够帮到咱们最终用户的,所以说简单的就是时间关系,过了一下IBM在大数据里面我们一些实践以及在深度学、继续学习里面的我们的一个框架,然后我们做过的一些案例,实际上IBM就是从硬件的一个软件的领先,到现在深度学习机器学习的一个倡导者,所以说我们在这方面有一些储备,然后这样话就是在这这些领域的时候,就是希望跟各位进行合作,是因为这不是IBM一家是做的。IBM是需要合作来完成一个需求,然后做到一个交钥匙工程,还需要各位的一块帮忙好不好,时间关系那我就讲到这里,谢谢!


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容