IBM Platform Computing提供了一系列工作负载管理能力以优化运行各种采用高性能计算集群的应用,并通过多样化工作负载、业务优先级以及应用资源需求确保较高的资源使用率。工作负载管理有效地利用计算资源来尽可能快速地完成工作负载。为了实现有效的工作负载分配,这里需要一个智能的调度策略。智能的调度策略是基于对共享计算资源、应用优先级以及用户策略的了解。提供最佳服务等级协议管理,并通过提供更大的灵活性、可见性以及对作业调度的控制,来帮助降低运营成本和基础设施成本,这是投资回报最大化所需要的。
IBM平台负载共享设施
IBM Platform LSF(负载共享设施)是一个功能强大的工作负载管理平台,面向要求苛刻的、分布式和关键任务的高性能计算环境。IBM Platform LSF管理批量和高度并行的工作负载。它提供了灵活的以策略为驱动的调度功能,这确保了共享计算资源自动分配给用户、群组以及作业,与你的服务等级协议保持一致,从而改善资源使用情况和用户生产效率。
高级调度功能使得Platform LSF适用于以高利用率运行,从而降低运营成本。很多功能结合到一起缩短用户的等待时间,提供更好的服务等级,这样知识型工作者就可以获得更高的工作效率,从而产生更快速、更高质量的工作结果。它强大的管理功能使得一小群管理员可以更轻松地进行管理,提高效率并释放有价值的员工投入到其他项目中。例如,你可以委派控制一个特定的用户社区到一个特定的项目或者给某个部门经理。你还可以重新配置集群给一个群组,而不会导致其他所有群组的停机时间,使用一种受益于通过GPU的新型应用。所有这些功能都将转化为灵活性。
Platform LSF功能的可扩展性可以满足您不断变化的需求,Platform LSF是可以在多个维度上进行扩展的。它可以扩展到数十万的节点和数百万的作业。它还可以在其他维度进行扩展:例如,在它所支持的资源广度方面。无论你是管理Windows、Linux、GPU工作负载还是浮动应用许可,Platform LSF都可以对跨多个数据中心和地域的大量用户和资源进行灵活控制。它还可以扩展支持不同类型的工作负载,或者数百万以毫秒计算的短时作业。Platform LSF具有调度功能以满足这些多样化的需求,处理大规模工作负载。Platform LSF在解决各种调度问题的能力上是独一无二的,它能够在一个集群上同时激活多重策略。
Platform LSF的智能调度策略包括以下特性:
公平调度 拓扑和核心感知调度 回填和抢占 资源预留 可调整大小的作业 连续和并行的控制 提前预约 作业饥饿 许可调度 基于SLA的调度 绝对优先级调度 检查点和恢复 作业阵列 GPU感知的调度,NVDIA GPU和英特尔至强Phi加速器均支持 与IBM platform MPI以及IBM并行环境的紧密集成 可自定义的调度器 以下版本提供了Platform LSF,以确保用户拥有合适的功能集以满足他们的需求:
快捷版:适合于单集群环境,针对低吞吐量、并行作业以及简单用户群组结构进行了优化 标准版:适合于多集群或者网格环境,针对高吞吐量、连续作业以及复杂用户群组结构进行了优化 高级版:支持极高的可扩展性,吞吐量达到100k+的核心以及并发作业 Platform LSF的性能取决于许多因素,包括集群中节点的数量、并行运行作业的数量、等待作业的数量、用户作业查询的数量以及查询的频率。随着这些任务的增加,调度周期和用户响应时间也会随之增加。对于高吞吐量工作负载来说,整体系统性能取决于处理能力、I/O容量以及调度节点的内存。以下表格提供了基于测试集群配置的衡量指南。对于大型集群来说,建议用户寻求IBM的集群调优服务和帮助。
|