|
||||||
|
Platform LSF为清华大学HPC提供作业调度和管理
http://www.cww.net.cn 2011年10月10日 13:46 通信世界网
作为我国最早开展高性能计算(HPC)研究的单位之一,清华大学早在2005年开始自建高性能计算平台,如今,高性能计算平台二期工程已经于今年4月正式投入使用。清华高性能计算平台(二期)拥有“探索100”百亿次集群计算机,集群机采用最新Intel Xeon X5670处理器,740个计算节点,系统理论峰值超过100TFlops,计算能力在全国高校居首位,能很好地服务于清华大学交叉学科的研究,并为校内外用户提供高性能计算资源、并发算法开发、高性能计算相关资讯等各类服务。 打造百亿次集群计算机 2009年清华大学成立了地球系统科学研究中心,并联合计算机系、环境系、核能研究院等院系成立了全球变化研究院,致力于研究全球气候变化背景下地球系统科学的前沿课题及其产生的社会经济影响。“超级计算平台是全球气候变化研究、地球系统科学研究必备平台,为此,清华大学启动了以“探索100”百亿次集群计算机为核心的清华高性能计算平台二期工程的建设,借助高性能计算平台还原或预测地球自然变化过程,实现对洋流、大气、地壳等的仿真研究。” 清华大学计算机系高性能所高工张武生介绍说。 在“高标准、高要求、高起点”建设原则指导下,清华大学与浪潮集团合力打造的清华高性能计算平台(二期)通用CPU计算性能达到了每秒104万亿次,GPU计算性能达到每秒68万亿次,总计算性能为每秒172万亿次,是我国在地球系统模拟领域速度最快的超级计算机,也是目前我国高等院校性能最高的计算平台。清华高性能计算平台(二期)内存总容量达到30TB,共享存储系统容量1PB,系统功率包括制冷系统功率不到350千瓦。除了卓越的计算能力,清华高性能计算平台(二期)还实现了两个关键点:第一,采用超异构并行可扩展架构,使得整体应用效能比其他架构提升了25%;第二,为了达到低能绿色设计理念,超算系统的计算节点采用了高密度的刀片式服务器设计,能够自动调整的智能液冷系统也大大降低了能耗,使得整体系统能耗降低了30%,年电费节约100万。 Platform LSF提供可信赖的作业调度和管理 清华大学超百万亿次超级计算机系统应用环境非常复杂,其应用领域覆盖了物理、化学、应用数学、材料、力学、自动化、计算机、核技术、航空航天、生物信息、石油、电机、医学、地质等众多学科,这就要求高性能计算集群平台的作业调度系统必须能对各个应用软件具有非常良好的支持,即作业调度系统要与各个商业应用软件具有良好的接口和后台支撑,同时还必须支持各种开源软件,以确保各种应用软件在集群环境下的稳定应用。 清华大学采用了Platform LSF作业调度系统对高性能计算平台进行管理和调度。张武生介绍说,清华大学HPC平台(一期工程)也采用了Platform LSF,实践证明Platform LSF有两大优点,一是稳定性非常好,从来没发生作业或者节点丢失的问题;二是可用性好,LSF提供了丰富的参数配置,通过组合的方式就能满足各种不同的配置需求。此外,Platform公司给我们的高性能计算提供了强有力的支持,利于我们快速响应用户需求。 Platform LSF是业界领先的最为广泛使用的分布式批处理中间件,它可以用于提供PaaS服务, 并支持网格化SaaS。Platform LSF在可靠性、响应时间、可操作性、可维护性等方面有较大的优势,表现在: 高可靠性。随着机群系统的逐步扩大,依赖于机群系统的人越来越多,机群系统的故障将导致数百、乃至数千分布世界各地的员工工作受到影响,甚至直接影响到产品的测试、验证乃至发布。LSF具有高可靠性,其机群系统的平均无故障时间大于99.95%,即一个季度,停机时间小于一个小时。 [1] [2]
编 辑:高娟 联系电话:010-67110006-853
关键字搜索:Platform
文章评论【查看评论()】
|
企业黄页 会议活动 |