外星人马云又发话了:云端(Cloud +App)将是未来移动互联网的关键;阿里巴巴将全面从云打到端,ALL IN移动电商;未来十年,建立DT数据时代中国商业发展的基础设施。
关于“端”,移动大战已经打得如火如荼,话题不少。不过阿里的云除了专业人士关注得却并不多。
而据我了解,阿里云正在成为中国云计算第一平台,其拥有基础云、服务云、个人云等多种服务,是中国最大的基础云计算品牌之一。除了普通的开发者、创业者越来越倾向于将应用部署到阿里云之外,中国最大的IT服务商东软集团与阿里达成合作,逐步将其为客户提供的应用系统迁移到阿里云。
企业越来越青睐成熟的公有云服务,而阿里的电商业务也日益增长。阿里“云梯1”和“云梯2”的计算和存储能力已经快要被耗光的情况下,必须进行扩容。否则完全无法满足业务增长要求,与数据相关的一切业务,例如淘宝运营活动、淘数据、量子业务、阿里小贷均会受到影响,甚至无法开展。
阿里最终选择了一条难度很大甚至充满风险的扩容方案。在不到3个月的时间,同时对云梯1和云梯2进行扩容,单集群规模均将达到5000台,并都实现跨机房处理能力。这是中国人从来没有尝试的事情。
在1年前,GigaOM分析师、知名大数据专家Derrick Harris在访问中国之后,在Gigaom上发表了一篇对中国互联网巨头的看法的文章。
他的核心观点是,中国拥有不少用户群十分庞大且增长迅速的互联网企业,但是比起它们的美国同行却有着更少的技术革新。他们每年花费巨资添置服务器设备,阿里2012年购入的服务器超过了以前5年购入的数量,百度正在建设世界最大数据中心,腾讯每年需添置10万台以上的服务器,它的云计算中心建设正如火如荼地开展。但是中国公司如果想在云计算上有所建树的话(阿里巴巴和新浪明显有这个想法),它们必须有匹配自己巨大规模的技术实力。
现在,阿里巴巴成功实施的飞天5000集群,不知道他做何感想?阿里云梯1的跨机房实施方案,有Facebook和Google这两位唯一的先行者,但他们没有公布细节,阿里得靠自己摸索。而云梯2从1500直接扩容到5000台并且实现跨机房,FB和Google也会致敬。
因为这确实很难。大规模集群对容错性、网络通信、调度和存储性能、可运维性、稳定性、预防脏数据甚至硬件能力都带来挑战。跨机房的集群由于突破了物理空间的限制,对上述要求又提高了一个级别。而阿里所承载的电商和金融业务的性质,对于状态同步、数据干净和业务健壮要求更高。需要在保障生产的前提下顺利完成扩容和数据迁移,又增加了难度系数。
这需要创新的架构设计,针对其开发新的服务器软件,并为之制定专属的项目实施方案。一旦实现跨机房,便可以突破了5000台的容量天花板,建设一个超大规模的离线存储和计算集群。
业界已经有成熟的集群服务器架构和软件,Hadoop,并且是开源的。不过,Hadoop生态圈还没有成熟的大规模集群跨机房解决方案。阿里必须亲自动手。最后,阿里升级并发布了Apsara 0.11版本,该版本是支持5000台规模并达到生产标准的第一个飞天版本,同时支持跨集群计算。
设计新架构、开发新版本Apsara、完成服务器采购、部署、数据迁移等,阿里云团队一共只用了3个月。看上去不可能完成的任务,阿里云能完成验证了它在云计算上的技术实力。事后,Facebook Hadoop团队发邮件邀请阿里云同学分享跨机房集群的经验。谁敢再说中国云计算是只花钱采购但计算实力不强的土豪?
|