在上一篇文章《IBM Platform HPC应用及组件解析》中,我们介绍了Platform HPC在单一产品中提供完整的高性能计算(HPC)管理解决方案,在本文中将更为详细的解读Platform HPC的运行模式、集群节点、管理节点、计算节点、可视化节点、登陆节点、集群网络、公共网络、配置网络、管理网络、应用网络。
运作模式
图中示例的高可用环境是用于显示如何设计一个Platform HPC集群部署,这只是几种可能配置之一。在我们的示例中,有4个网络(公共网络、配置网络、管理网络和应用网络)以及一个共享的集群存储,外加一个双节点GPFS集群。
图:在物理硬件上部署Platform HPC集群
集群节点
管理节点、计算节点和可视化节点可以用于Platform HPC集群中,每个节点都有自己的作用。
管理节点
管理节点是第一个安装在集群中的节点,每个集群都需要一个管理节点。它控制集群中的其他节点。在PHPC的早期版本中,这个节点也被称为头节点或者主节点。管理节点的角色是一个在用户站点的部署节点,包含在集群中运行应用所需的所有软件组件。在管理节点连接到一个集群节点之后,它为计算节点配置和部署客户端软件。安装在管理节点上的软件提供以下功能:
-行政、管理和监控集群
-安装计算节点
-无状态和有状态的管理
-资源库管理和更新
-集群配置管理
-HPC套件管理
-配置模板管理
-应用模板管理
-使用Platform MPI套件加速并行应用处理和应用扩展
-使用Platform LSF套件进行工作负载管理、监控和报告
-用户登录、编制和提交作业到集群
-充当防火墙把集群与外部节点和网络阻隔开
-充当服务器面向多个服务,例如DHCP、TFTP、HTTP以及可选的DNS、LDAP、NFS以及NTP
计算节点
计算节点是专为计算密集型应用设计,以满足计划用例的功能要求。计算机节点是通过管理节点配置和更新的,在集群中执行计算任务。工作负载管理系统(Platform LSF)在计算节点上设置作业位置数和CPU核心数。
|