伴随着大数据相关技术和产业的逐步成熟,继Hadoop之后,Spark技术以集大成的无可比拟的优势,发展迅速,将成为替代Hadoop的下一代云计算、大数据核心技术。
Spark—新一代全能大数据平台
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。
Spark是基于内存,是云计算领域的继Hadoop之后的下一代的最热门的通用的并行计算框架开源项目,尤其出色的支持Interactive Query、流计算、图计算等。
Spark在机器学习方面有着无与伦比的优势,特别适合需要多次迭代计算的算法。同时Spark的拥有非常出色的容错和调度机制,确保系统的稳定运行,Spark目前的发展理念是通过一个计算框架集合SQL、Machine Learning、Graph Computing、Streaming Computing等多种功能于一个项目中,具有非常好的易用性。
Spark应用现状及未来发展
目前SPARK已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且是Apache顶级Project,可以预计的是2014年下半年到2015年在社区和商业应用上会有爆发式的增长。
国外一些大型互联网公司已经部署了Spark。甚至连Hadoop的早期主要贡献者Yahoo现在也在多个项目中部署使用Spark;国内的淘宝、优酷土豆、网易、Baidu、腾讯等已经使用Spark技术用于自己的商业生产系统中,国内外的应用开始越来越广泛。Spark正在逐渐走向成熟,并在这个领域扮演更加重要的角色。
Spark专业人才匮乏,培养是关键
伴随Spark技术的普及推广,对专业人才的需求日益增加。据Spark亚太研究院院长王家林介绍,随着2014年5月30日Spark 1.0.0版本的发布,Spark技术本身已经相对成熟,虽然目前Spark在美国已经获得广泛应用,但在国内的企业级应用还是处于起步阶段,各方面都还很不成熟,企业面临最大的困难,就是如何能够快速培养起相关的Spark人才,Spark专业人才需要具备能够理解Spark内核并能够独立完成项目的能力。
Spark亚太研究院致力于Spark技术的研究及推广,在帮助企业规划、部署、开发、培训和使用Spark为核心,同时提供Spark源码研究和应用技术训练。在完成了对Spark源码的彻底研究的同时不断在实际环境中使用Spark的各种特性的基础之上,Spark亚太研究院推出了国内首个Spark训练体系:《18小时内掌握Spark》、《精通Spark:Spark内核剖析、源码解读、性能优化和商业案例实战》、《Spark企业级开发最佳实践》、《Spark 1.0.0企业级开发动手》、《Spark架构案例鉴赏》、《精通Spark的开发语言:Scala最佳实践》, 帮助学习者,通过以下几个阶段的培养,逐步掌握spark技术。可以登录(www.sparkinchina.com/)了解Spark相关课程。
第一阶段:熟练掌握Scala语言
第二阶段:精通Spark平台本身提供给开发者API
第三阶段:深入Spark内核
第四阶段:掌握基于Spark上的核心框架的使用
第五阶段: 做商业级别的Spark项目
第六阶级:提供Spark解决方案
帮助企业,从入门到精通到商业实战,完成Spark人才的快速培养。
|