首页 >> 融合 >> 大数据 >> 正文
Uber数据技术大揭秘:数据分布与反欺诈技术
虎嗅网
作者:       2016年3月11日 17:25
Uber

在虎嗅主办的“下一步,Uber们这样研发你的出行”沙龙活动中,Uber CTO Thuan Pham首次在中国揭秘Uber技术,包括Uber的技术本地化、数据分布、云存储进展、反欺诈算法、技术团队架构、地图数据检测等核心内容。

图为UberCTO Thuan Pham在虎嗅活动现场

 Uber的数据分布(Thuan Pham爆料将和百度云合作)

问题1: Uber在全球提供服务,如何考虑数据的分布和本地化问题?因为之前Thuan Pham先生在“连线”做了一个分享,好像Uber从来没有用云服务,而是用了自己的数据中心、基础设施,是这样吗?如果是的话,能不能针对这个问题详细讲一下。

Thuan Pham:到至今为止,我们都是用自己的基础设施,而不是用云服务。但是现在在改变,我们要平衡需求,一方面从技术角度而言要跟进,另外一方面还要符合监管,不管在哪里营运都必须在当地法律框架之下营运。

举个例子,现在我们数据中心有两个在中国之外,有两个在中国之内,一共是四个数据中心。在中国所有的服务都是由设立在中国的数据中心提供的数据支持,所以数据在这里、服务也在这里,这是符合监管和法律要求的。

这个数据是非常隐私化的,对于乘客也是非常隐私化的,我们保持数据的安全性。

自己有一个数据中心的好处是,可以服务于很多的城市,这个是有成本效应的。而不是说去租一个云服务按小时付费,这个会更贵,所以我们用自己经营的方式。

未来会不会用云服务?其实我们已经在开始做了,一些特殊案例,我们可以使用云服务。因为这个速度会更快,而且服务会更可靠。

现在在中国有两个数据中心,如果在中国和百度合作用百度云,相当于加了十个数据中心。这十个数据中心是用来进行车辆调度服务,也就是说将车和乘客进行匹配的服务可以放在百度云上进行。会发生什么事情呢?由于有很多的云服务中心,一旦你打开手机的APP,有一个数据中心可能离你的手机非常近,从网络速度上来说离你非常近,这样你就可以很快地得到叫车的响应服务。而不是说你在中国某个地方,一切都要通过北京的数据中心进行交付,这样就会很远。

在这样的例子上,使用当地的云服务因为延迟性低、成本低、速度快,我们的服务响应时间会更快。而且我们的乘客、车主都会更喜欢快速响应的服务。

如果有十到二十个小的数据中心在全中国遍布的话,如果任何一个数据中心出现故障的话,其他数据中心都可以进行接力把出现故障的数据中心转到其他数据中心上,这样就永远不会有数据中心受到影响,抗打击能力也非常强。我们的模型叫模型 “N+1+2”,N可以是一个很大的数字,现在要提供+1、+2额外的备份,让我们可以应对在未来某一个数据中心失败所带来的影响,而且成本不会太高。这样的话,既非常可靠,成本也低,速度非常快。这样的数据肯定是储存在我们中国国内的大数据中心之内,另外刚才说的遍布的十个云数据中心可以从主数据中心当中取。主要的数据中心是在中间的。

问题2:刚才讲到我们在世界上总共有四个数据中心,我们会遇到一个问题,怎么考虑全球去访问数据中心遇到时延的问题?每个数据中心的机器规模是多少?是在一万级别,还是在十万级别?

Thuan Pham:我也不能对数据中心的规模来进行回答,因为这是属于商业机密。但是我可以回答你前面的问题,就是怎么处理时延的问题。我早先讲到了,现在希望把我们的服务从自己的数据中心转移到嫁接云上,相当于在云上有很多小的数据中心。这样一来每个城市都可以有一个小数据中心离自己比较近,所以全世界可能会有好几百个数据中心在云上,这样的话速度会高、时延会比较低。

 Uber的反欺诈技术

Thuan Pham:反欺诈是非常有意思的工种。在任何电子商务平台上,包括Uber和其他平台,只要是电子商务平台就会有欺诈,人性如此。

我们会使用各种不同的技术,包括大数据、机器学习、各种各样的公式、各种运算等等,依靠这些来抓取欺诈的模式,然后再训练机器学习和公式,让他们的反应速度更加快,更快地捕捉到欺诈行为的产生。我们希望在不久的将来假设某个特定的用户把自己的信用卡信息登记到系统的时候,就可以从中看到作弊方式。我们不会立刻把这个人屏蔽出去,但是会给他评一个很高的欺诈分。那我们的系统就会挑战这个人,来减少单个人欺诈的可能性。我们会让这种做法自动化,因为我们现在在全世界业务量非常大,不可能让人的团队来抓取欺诈者,只能让机器来做,所以需要训练机器和公式来自动捕捉欺诈的可能性。

我特别喜欢一个电影《少数派报告》可以从规律中预计这个人会不会犯罪,我们在Uber的情况就是看这个人会不会欺诈。然后提出挑战,让他证明他的身份,以预先的方式来减少欺诈行为。也就是说我们就是把欺诈的门槛设得非常高,想欺诈的人就不会找Uber来欺诈,这是我们长期以来通过技术采取的措施。

Uber的地图数据

提问:我们都知道在中国,Uber用的是百度地图服务。但是在世界其他地方是自己的地图服务,一些空白的路你们是怎么检测到的?有没有考虑把这些数据更新到地图库?

Thuan Pham:这个问题提得不错,我们的工程师们在提供服务的时候,是用不同的绘图技术。比方说在中国用百度地图,在其他的地方用我们自己的地图数据,当这个地方没有自己的数据时,我们用Google Map。

有的地图还没有画上新的路,所以有一些空白。但是我们的合作司机已经在这些路上跑来跑去,只要他们走这条路,这条信息就可以包括到数据里面去。所以我们的服务可能比Map Service更好。

在Uber中所有的司机都有数据平台,会把所有数据输入平台到数据库里面,这样可以帮助司机更有效率地开车。做得越好,当然效率就越高,司机可以节省时间,而且跑的单也可以更多,所以技术可以大大改进大家的生活,可以把实时的数据马上输入到地图数据库里面。

技术预算

Thuan Pham:刚才关于预算,提出来要一个预算数字。我在这里不能说很详细的数据,我的职责是带领技术团队,不是财务总监,只能说工程师团队大概是公司的20%。

补充:大数据对出行领域会有怎样的改造?

沈海寅(原360副总裁、智车优行CEO):极大的丰富数据

车能够在背后反应出来的数据,其实是非常巨大的,你用这个数据其实是可以做很多事情的。

第一点,有些数据是用手机去取得的,比如说GPS、当地的天气。但是有些数据是取不到的,必须通过车的方式来获取,比如路面本身的平稳状态、局部天气情况,甚至包括PM2.5、局部温度或湿度的信息。虽然我也不知道这些数据在今天能够产生多大的效应,但是未来在这些数据上有很多东西可以做的。

第二点是更加密集的数据,不再局限于简单测量的量,我们可以通过摄像头、视频、传感器可以探测到的数据。还有在车上为了自动驾驶也会有雷达,包括像未来的激光雷达,这些数据也都会可以给新的服务提供非常好的支撑。

吴甘沙:见微、知著

在智能行驶和未来的智能出行当中有很多大数据的应用,如果能够把200万辆出租车调度得非常好,让人想用车的时候马上就来车,让他能够保证我自己剩余的电量是能够服务好哪一个人,这里面是需要有大量的大数据分析。即使在现在做的智能驾车里面也是有大量的大数据。

大数据有两个基本的功能,分别是见微、知著。见微是了解个性化的需求,知著是在群体层面、宏观层面能够了解一些规律。

现在用人工智能去开车,这个事情其实是需要大量数据的处理。我们说人工智能跟人有什么区别呢?人在驾校学几十个小时,上路开几百公里,就可以开得很好了。我只需要一点点数据,能够举一反三,能够触类旁通,关键时候还能容错。现在机器学习还没有那么聪明,需要大量的数据去学习,没有见过的不会处理。

反过来,人一年可能只能开一万公里,而且越开到后面技能的提升就越少了,而且会的开车的记忆也没有办法转给其他人。但是人工智能不一样,如果装了一万台车,每台车一年开一万公里,那人工智能就学到了一万乘一万,等于一亿公里。在大量数据的训练之下就会开得越来越好、越来越聪明这就是大数据知著。但同时又是见微,我们是不是对每个人都有同样的一种最好的开车方式吗?未必。我们每个人驾驶行为不一样,每个人对安全距离的判断,每个人去刹车或加速的习惯不一样,每个人换道的激进程度不一样。我们不希望人坐在自动驾驶车里面是战战兢兢的,或者是好像我现在坐在副驾驶上面的感觉。大家说现在夫妻吵架,其中重要的原因是坐在副驾驶上面觉得另外一位开车怎么开得那么烂。

我们是希望自动驾驶对机器的操控,跟特定的个人对机器的操控是趋向于一致的,这样坐在里面会非常舒服,这就是见微了。我是觉得大数据在这些里面有大量的应用。通信世界网

相关阅读
热门文章
蓝戈沙龙