通信世界网讯(CWW) 引言:DAL是X国一家大型远洋运输公司,业务包含航运、仓储、陆运、货物装卸、船舶管理等。白天营业时间,大约处理10W笔左右的货物交易订单。夜间非营业时间,需要进行数据整合、数据备份等操作,用于制定仓储计划、船舶调度计划。为了不影响第二天的日间营业,夜间操作必须在凌晨6点之前全部完成。2013年初,DAL计划增加至北美的航线,预计每天交易订单数量会增长到15W笔。当前系统无法在规定时间内消化15W笔交易数据,而交易数据每延迟一天,DAL将损失近10万欧元。通过分析,主要性能瓶颈出现在数据库与磁盘的并发访问量和响应时延上。在业务压力增大时,原存储系统IO时延急剧上升,在峰值时期IOPS达到20W左右,此时存储IO平均时延高达8ms。高时延IO导致数据库运行中80%的时间被用于IO等待,从而导致批处理时间过长。要彻底解决数据库性能问题,必须让存储系统在高IOPS压力的同时将时延控制在一个比较低的水平。最终,将15W笔交易订数据处理时间缩短至规定时间内,支撑业务顺利扩张。
寻找IT效率提升的最佳途径
随着企业数据中心所承载的业务越来越多,数据越来越频繁的流动和使用,对更低时延,更高服务级别保证等特性的诉求也将愈发明显。各行各业的应用千差万别,无论是全面的企业资源计划,还是用户关系管理,抑或是企业生产过程中的采购、生产、分销等流程,企业管理中的财务、人事、分析决策,都离不开成熟度的高性能IT系统支撑。在公共事务领域,同样也经历着这样的变化。随着云计算和服务器虚拟化进程的加速,IT设备需要从满足从单一应用走向面向多业务整合。用户对等待的时间和结果的可获得性都有越来越高的要求,这对企业IT系统的事务响应时间、并发处理能力、查询作业的时间长度提出了苛刻挑战,越来越多的用户开始关心IT系统的效率优化。总是想尽各种办法提升性能,,比如增加服务器的数量、提升服务器配置、让服务器的负载低于10%等等。这些手段无一例外都是习惯性加强服务器以满足应用数据库性能需求的思维定势,使得大部分用户环境中计算能力超出存储能力,却没有真正消除性能瓶颈。华为通过对近百个有类似问题的用户系统的调查显示,约87%的系统性能问题出现在存储子系统与应用数据库的交互上。换言之,存储子系统的响应时延、并发访问量决定了应用系统的响应时延与并发量,成为整个系统的性能瓶颈。
存储系统响应时间,即时延,正变成一个用户关注的指标,特别是对于很多企业关键应用(mission-critical business)来讲,决定最终用户的体验,不仅仅看IO吞吐量,时延也是非常关键的指标。通过提供稳定的低时延保证,一方面可以保证和改善用户体验,另一方面能够减少服务器的数量,还会在空间、能耗等方面给用户带来更多价值。反过来,时延的改善能促进应用系统对IOPS的需求。对于一个数据密集型的应用,如果数据访问的时延降低了90%,那么客户对IOPS的需求就可能会最多提升10倍。特别是针对OLTP、OLAP这些应用,这样的情况会表现得非常明显,收益也会是巨大的。另外,高性能计算、虚拟桌面等领域对高IOPS也有很大的需求。
特别强调一点,这里讲的是时延保证,即应用响应的最大时延,换算成专业术语是99%以上I/O的时延。而非传统意义上的平均时延。99%的时延比平均时延对应用有更大的价值,原因在于当前大多数应用都是在线数据密集型应用,一个用户的请求会产生多个并发的访问,影响最终对用户应用的是这些并发访问中最慢的那个响应。99%的时延正好可以体现这一要求,而平均时延则显得没有多少意义。这就是业界对99%的时延强烈关注的主要原因。如下图所示,随着业务压力不断增长,存储系统处理的IO数目不断增多,而在面对大IO压力(如百万级IOPS)的情况下仍能保持持续稳定的低时延才是支撑应用快速响应的关键因素。
|