Platform发布全新监控和分析工具

全球领先的集群、网格、云中间件和云管理平台提供商Platform Computing(以下简称Platform)近日发布了Platform RTM 8和Platform Analytics 8,这两款产品专门用于帮助HPC管理员和IT经理监控、报告高性能计算工作负载状况并对相关数据进行深入分析。这两款工具都有助于优化管理决策,从而使HPC数据中心能更有效地运行。Platform RTM 8是一个功能完善的运行仪表盘,为HPC数据中心管理员提供了所需的各种信息和工具,帮助他们增强集群效率、提高用户生产力并降低成本。对IT经理、规划人员和管理员来说,Platform Analytics 8是一款先进的分析和可视化工具,可敏锐地发现并消除系统瓶颈、分析HPC数据中心的使用趋势,并据此改进容量规划、优化HPC资源利用率,最终实现降低成本的目标。

  这两款产品都是对Platform LSF产品家族的补充。Platform RTM为Platform LSF环境提供了完善的负载监控和报告功能,它通过统一的界面,方便、高效地监控所有负载调度和许可证使用状况,从而使管理员无需中断服务即可快速排除故障。Platform RTM还包含一个灵活且自动化的报警系统,可迅速发现故障,确保集群始终保持正常运行状态。由于内置了多种功能,Platform RTM可替代传统的Platform LSF环境中的多种工具,这种接口统一、易于使用的监控工具大幅度提升了管理员的工作效率并降低了管理成本和复杂性。

  作为一款对海量Platform LSF负载数据进行分析、关联和可视化的产品Platform Analytics可以从一个或多个Platform LSF集群收集作业数据、资源和许可证数据,并据此作出相应的决策。该工具不仅拥有功能强大的分析引擎,还提供了创新的界面,可以快速、方便地提供分析结果。用户可以从各种预先配置的仪表盘中选择数据,或者构建自己的仪表盘,快速了解其HPC及应用的运行状态,优化资源规划和使用效率。

  Platform RTM 8和Platform Analytics 8的推出得到了各行业客户的一致好评。Cadence公司工程基础架构IT总监Steve MacQuiddy表示:"当我们同时运行数百万个模拟设计以测试我们的最新软件时,监控集群的可用性和性能就变得特别重要,有了统一的Platform RTM仪表盘,我们就能监控整个集群环境,不仅能更容易地平衡工作负载,还可以在峰值期间优先为关键任务分配资源。"

  "当我们频繁地测试我们的赛车设计时,确保我们的HPC数据中心始终可用是至关重要的,即使是微小的设计调整也必须经过严格的测试才能实际投入生产",红牛赛车公司IT总监Matt Cadieux说,"Platform Analytics使我们既能随时了解集群的使用情况,也能随时发现可能干扰测试程序运行的潜在问题,它同时也使我们的的设计团队可以提前规划峰值用量,确保在测试高峰期应用程序能平稳地运行。

  "Platform RTM 8以功能强大且可扩展的开源Cacti图形化架构为基础,并提供了一些强有力的新功能,例如网格报警使我们无需调用Cacti图就能迅速给出警示",达索公司Simulia部门CIO Kevin Rota说。"RTM允许Simulia进行方便快捷地进行访问并实现了数据的可视化,这使我们能更清晰地了解LSF资源的使用状况以及使用者是谁,这个新功能将帮助我们改进服务质量"。

  Platform公司高级产品市场经理Louise Westoby表示:"集群管理员必须监控和分析集群的性能以排除潜在的风险并分析使用模式,从而更有效地利用Platform LSF基础架构。如今,IT人员的任务繁重,时间紧张,要建立本地的监控、报告和报警系统是不现实的,Platform RTM和Platform Analytics提供了全面的可见性,让用户能够全面了解其Platform LSF集群、队列和任务的状况,提高生产力并降低成本"。

  Platform RTM 8的新功能

  与那些仅在基础层监控基础架构的工具不同,Platform RTM能对工作负载和资源进行全面监控,包括遍布全球的集群、主机、许可证队列、用户和日志文件。新功能包括:

  " 统一视图、直观的仪表盘--通过可视化的状态指示器快速查明问题

  " 支持多个集群--可进行远程管理以提高效率并节省时间

  " 资源使用监控--以资源使用报告为基础,对调度策略进行分析

  " 以用户、组或团队为单位对资源进行监控--确保资源的使用与业务优先级保持一致,并通过多级分配监控来辅助进行容量规划

  " 自动完成报警和异常处理--通过即时通知提高集群的可用性,利用多度量触发器减轻管理员的工作量