首页 >> >> 热点 >> 正文
邬贺铨:大数据不能全部开放
通信世界网
作者:邹乾       2016年5月25日 11:17
邬贺铨 大数据

通信世界网消息(CWW) 2016年5月25日,由中国大数据产业峰会暨中国电子商务创新发展峰会、人民邮电出版社、中国计算机学会大数据专家委员会主办的“第一届大数据科学与工程国际会议”在贵阳召开。中国工程院院士方滨兴、中国工程院院士邬贺铨、清华大学教授郑纬民等嘉宾出席了本次大会。邬贺铨在会上表示,只有当数据大于一定量的时候才有用,但不是所有的数据都能开放。

中国工程院院士 邬贺铨

2015年和2016年全世界新产生的数据量等于人类有历史以来一直累计到2014年全球数据重量的总和,近两年,我们正加速进入大数据时代。邬贺铨说,大数据是数据的一部分,不是所有数据都能开放,而是按照分类部分开放。大数据是多来源的,包括社会空间数据、物理空间数据和信息空间数据。按网络层面划分则包括自媒体数据、日志数据、富媒体数据、基础网络数据。也可以分为国家安全数据、商业秘密数据、个人隐私数据,这三方面的数据都不能开放,开放的是其他的数据。

大数据的多重性质特点

大数据具有增长性、颗粒性、异构性、移动性、多维性、语义性、隐私性等特点。邬贺铨以医疗大数据为例,中国一个千万人口的城市50年所累计的医疗数据量就会达到10PB级。每天都会有大量的数据导入区域医疗数据中心。数据是长期性的,按照医疗行业的相关规定,门急诊患者的数据保存不得少于15年,疏远数据保存30年,影像数据无限期保存。另一方面,医疗数据多样性和碎片化,颗粒性大小差别很大。而且通常需要带有时间、位置、环境和含着病史及家族史等信息。

另一方面,医疗数据把患者、医生、医疗机构在不同层次上关联。而不同的医疗信息废物更需要从不同的视觉来观察这些数据。此外,存储需要加入语义标签,对影像的理解需要有更专业经验。当然,医疗数据涉及患者隐私需要保护,也需要医疗纠纷的保护。

网络视频已成为IP流量主导

邬贺铨指出,网络视频已成为IP流量主导。全球消费者互联网视频从2014—2019年均增33%,2019年消费互联网视频每年增加33%。动视频流量2015—2020年将年增62%,移动视频占移动流量数据的比例从2015年的55%增加到2020年的75%。

到2020年,数据量会达到40ZB,装到光盘上,重量可以等于现在美国的“尼克兹航母”,可以装几十艘。我们需要将非结构化数据转换为结构化数据来处理,包括政务大数据,消费者大数据,企业级大数据,医疗大数据等。以政务大数据为例,一个8M摄象头每小时产生3.6GB,很多城市的摄象头多达几十万个,一个月的数据量达到数百PB,若需保存3个月则存储量达到EB量级。

大数据在于精

邬贺铨表示,大数据不能以大盖全,大数据追求数据精准但强调规律。这可以理解为对于一个人大数据集而言,我们很难要求所有数据都精准,只要大多数数据有代表性,并不妨碍数据集合得到较为准确的结果。

此外,大数据可以提高分析精度。康奈尔大学教授用同心的思维来解决语音识别,语音识别率从70%提高到90%以上。最近十年,语音识别错误率和机器翻译的准确性都成倍改进,其中20%的贡献来自方法的改进,80%则在于数据量的提升。通信世界网

相关阅读
热门文章
蓝戈沙龙