Platform MapReduce照亮“大数据”时代_市场动态

在日趋激烈的市场竞争环境中，企业越来越依赖于从对数据的分析中揭示未来发展的方向。在传统的企业应用中，结构化数据是最为普遍的数据类型。然而，随着社交媒体、移动计算等新技术的演进，企业不得不面对文本、图像、电子邮件、音视频、网上交易数据等海量新型数据。与传统的结构化数据不同，这些数据都是非结构化的。

如今，非结构化数据的爆炸性增长，正在深刻影响着整个数据存储和分析领域。为了满足新兴的业务需求，企业开始逐渐摒弃传统的数据处理方式，转而尝试新的模式对包括非结构化数据在内的各种类型数据进行访问、处理和分析——这便是“大数据”问题。

MapReduce：下一代数据处理编程模式

“大数据”的问题，正促使企业中传统的存储和计算解决方案开始迈向变革之路。从现状来看，当前存储模型大多数能够支持企业级需求。因此，“大数据”的焦点问题开始转向新型编程框架领域。而在这一领域，MapReduce无疑是最受关注的新一代技术。它提供了在计算集群下分布处理大数据的软件框架，利用MapReduce编程框架，开发人员可以开发出跨处理器分布式集群或独立计算机的、能够并行处理海量非结构化数据的程序。从目前来看，市场上主要有三种方式能够实现对海量数据的MapReduce操作。

1．开源Apache Hadoop项目。当前，新型编程框架领域被寄予厚望的一项技术是开源Apache Hadoop软件及其相关的MapReduce编程模型。Apache Hadoop是支持数据密集型分布式应用的软件框架，采用免费许可证方式，能够让应用能够使用Hadoop分布式文件系统内的数千个节点和数PB数据。然而，开源Hadoop MapReduce解决方案并非尽善尽美，由于其计算部分（即数据的抽取、处理和分析归纳）最初只是为了满足基本的功能需求而非企业级的实施进行设计的，因此发展到现在已经无法更好地满足企业级的需求。面对日益苛刻的业务需求，Hadoop MapReduce目前面临五大挑战。

第一，缺乏高性能和扩展性。现有的Hadoop MapReduce编程模型实现并不提供快速、可扩展的分布式资源基础架构解决方案；第二，缺乏灵活的资源管理。现有的Hadoop MapReduce编程模型实现无法迅速响应来自应用程序及/或用户的需求变化；第三；缺少应用部署支持。现有的Hadoop MapReduce编程模型实现并没有使用自动化应用服务部署功能，因此无法简化管理生产型分布式系统上的多应用集成；第四，无法保证服务质量。现有的Hadoop MapReduce编程模型实现并没有经过优化，无法充分利用这个优点：通过提高多核服务器的利用率，加快运行速度、降低成本；第五，缺少多数据源支持。现有的Hadoop MapReduce编程模型实现只支持一种分布式文件系统，通常是HDFS。而一个完整的MapReduce编程模型实现应该足够灵活，能同时支持多种分布式文件系统的数据存取。

2．商用开源解决方案。Cloudera是一家新兴公司，提供自己的Hadoop软件发行版，采用与其他开源软件公司（如红帽）同样的商业模式。它既提供软件服务，又对整个开源软件做贡献——从终端用户应用程序、MapReduce处理到Hadoop文件系统。然而，其解决方案需要处理流程与文件系统紧密集成，这迫使客户被其数据存储方法牢牢锁定。此外，它仍是一款未经验证的大规模企业软件解决方案——包括负载管理功能、高度依赖开源社区、服务质量和性能无法得到保障。