大数据更需要强调数据挖掘利用,而针对目前存在的技术应用、人才、安全与隐私等问题,最关键的是要有国家大数据战略,使其成为转变经济增长方式的有效抓手。
不要被大数据(Big Data)的“Big”误导,大数据更强调的不是数据之多,而是数据挖掘。数据大与价值大未必成正比,例如将一个人每分钟的身体数据记录下来,对了解该人的身体状况是有用的,但如果将他每毫秒的身体数据都记录下来,数据量将较前者高6万倍,与按每分钟记录的数据相比,其价值并不能增加。大数据的价值在于样本数的普遍性。统计一个人每分钟的身体状况数据与统计60个人每小时的身体状况数据相比,可能后者在统计上更有意义。大数据往往是低价值密度。大数据中的多数数据可能是重复的,忽略其中一些数据并不影响对其挖掘的效果。因此可以说大数据的价值好似沙里淘金和海底捞针。
大数据的量越大处理难度就越大,就需要更多的服务器或更高速的服务器。实时性是大数据挖掘面临的挑战,而非结构化是大数据挖掘的主要挑战。目前国际上大数据处理技术主要集中在结构性数据,但是大数据中80%以上都是非结构性数据。目前国内外都有很多大数据应用成功的例子,但基本上还是结构性数据,对结构性数据的挖掘是大数据应用的切入点。
|