admin管理员组

文章数量:1530518


2024年7月20日发(作者:)

IBM HPC 刀片集群解决方案

1 行业应用

高性能计算的主要行业和应用:

 学校、研究所等科学研究机构:

 石油部门、医学生物、计算化学:

 汽车与航空航天设计、建筑结构设计、三维图形运算等。

高性能计算多年来一直是科技综合实力竞争的制高点,也在一定

程度上反映了各大公司在系统研发方面的实力。作为行业的技术领先

者,IBM 公司在这一领域占主导地位。在 2007年 07月最新公布的

全球 500强超级计算机中,192套来自 IBM,其中 6套位于前 10

名,45套位于前 100名,其每秒钟的运算能力总和达到了 3121万

亿次,是 500强所有系统运算能力总和的 41.66%,占绝对领先地位。

在高性能刀片集群的的市场中,IBM 也一直处于领先地位。目前

速度最快的刀片式 Linux 群集,位于欧洲巴塞罗那超级计算中心的

MareNostrum(94TFlops),采用 IBM JS21 刀片,在目前 500强超级

计算机中排名第九。在中国高性能计算机前十强中 IBM 占据 4席。

其中包括基于 POWER 刀片的南开大学“南开之星”集群系统(基于 J

S20 刀片 4.7TFlops)。

JS21 的强大的向量运算功能,在某些领域中具有突出的性能优

势,如生命科学、计算化学,同时也适用于地震资料处理、信号与数

字影像处理,自主开发的应用等方面。

高性能计算(以下简称 HPC)类型一般分为 SMP 和集群式两种,

集群式的解决方案主要面向一些计算密集型的应用。

2 方案介绍

本方案介绍了采用 JS21 刀片服务器的高性能计算集群的系统

架构,优势分析与软硬件标准配置。

刀片式 HPC 集群通常由以下几个部分组成:

 管理节点,管理节点是集群的控制中心,作用包括整个集群

的软硬件管理、计算节点的快速远程部署、提供用户登陆接

口、任务调度与提交。管理节点可以考虑采用 p505、p510

或者 p520 服务器。

 计算节点,集群中用来计算的资源。 在我们的方案中,每片

JS21 就是一个计算节点。

 存储节点,集群中可以采用专门的服务器连接存储。然后通

过各种网络文件系统协议(如 GPFS、NFS),给计算节点提供

网络文件系统服务。存储节点可以根据集群的大小部署多个,

实现负载均衡或冗余。

 管理网络,管理节点与计算节点中专门用于软硬件管理通

讯的网络。通常为以太网络。

 计算网络,集群中专为计算节点间通信的网络,根据不同计

算类型对网络延迟带宽的要求不同,有高速以太网, Infinib

and 网络,Myrinet 网络等各种高速交换网络可供选择。

3 优势分析

概括来说,JS21 刀片优势在于其出色的浮点运算能力、优秀的

硬件品质、以及丰富的软硬件支持。

1.

出色的性能

JS21 刀片与 IBM 超级计算系统深蓝一样,采用了 IBM PowerP

C RISC 处理器, PowerPC 其中的 PC 即 Performance Computing,

是基于 POWER 专为计算而设计的 CPU,JS21刀 片采用了 IBM P

owerPC970 RISC 处理器,支持 IBM AIX 5L 和 Linux 两种操作系统,

完全兼容 64位/32 位高性能计算应用。根据 Linpack 高性能计算机

基准程序测试,单台采用四核 2.5GHz 处理器的 JS21 服务器的实测

浮点运算能力可以达到 33.7 GFlops,远远领先于其它 4路 RISC 系

统 。

IBM PowerPC970 芯片上具有独特向量处理单元,能够在一条指

令周期内对多条数据进行操作。如下图所示:

如果应用程序针对向量(或称为 AltiVec)进行优化,则可以成

倍地提高计算效率。以在 HMMER 2.3.2(一种通过隐马尔可夫链模

型进行生物序列分析的软件)为例,如果采用了优化版本,计算时间

可以缩短 3到 4倍。编译也支持对应用程序的自动向量化编译,无

需客户更改代码,即可获得 altivec 更您带来的性能提高。

Hmmsearch

进程数量 向量优化的版本

Test Case

Small Case 1

2

Large Case 1

2

标准版本 性能提高比率

(消耗的时间 s) (消耗的时间 s)

179

109

1371

813

660

333

6107

2849

HMMER 2.3.2 测试

3.69x

3.05x

4.46x

3.50x

2. 更快更稳定

构建高性能计算系统是对于操作系统、编译器、互联设备驱动、

作业管理调度以及文件系统管理等等涉及各个系统层面的软硬件的

整合。对商业运行的集群系统其可靠性和可用性更被放在第一重要的

位置。

IBM 针对 JS21 刀片集群有非常成熟的高性能解决方案,集成了

众多 IBM 的先进的软硬件技术和强大的技术服务支持。IBM POWER

家族的一贯的优秀品质,值得您的信赖。

3. 丰富高效的交换网络

在高性能系统的搭建过程中,选择一个正确高效的数据交换网络

是能否达到甚至超过您对集群性能预期的关键。IBM BladeCenter JS

21 所支持的外部连接极为丰富,除了常见的千兆以太网和 SAN 存

储交换网络以外,JS21 还支持适用于高性能的计算的 10Gb 以太网,

Infiniband 网络,以及 Myrinet 网络。

4 建议配置

1. JS21 建议配置

针对一个 5000亿次的高性能解决方案,IBM 提供的建议 Blade

Center JS21 刀片服务器 HPC 集群配置如下:

名称及产品编号

刀片中心

刀片中心网络选件

(计算网络)4X Infiniband 高速交换机

1

14

刀片服务器与选件 JS21 刀片服务器, CPU:4路 2.5G, 内存:8GB (2*2GB),硬盘:

2*73GB

管理节点及 I/O节IBM System p520 服务器

SAN 存储子系统 IBM Storage DS4000 系列磁盘阵列及相关附件一套,类型与容量

1

视用户具体需求而定

2

描述

BladeCenter H 机箱, 9U,可装14片 JS21

(管理网络)Nortel 2/3层铜口以太网交换机模块

数量

1

1

2. 简述:

该方案是较常见的 HPC 配置。其中一共配置了 1个 IBM Blade

Center H 刀片中心,14个 IBM JS21 服务器,56颗 IBM PowerPC9

70/2.5GHz 处理器;内存容量为 112GB。

配置 1台 IBM System p520 服务器,同时作为管理节点和 I/O

节点;1台套 IBM DS4000 系列存储作为 HPC 的 SAN 存储,解决

整个高性能计算的大容量存储需求。是否配置存储及 IO节点取决于

客户对存储容量的需求,不是必要配置。

3. JS21 集群管理软件

既可选择商业软件,也可以选择开源软件。如下表:

集群管理软件

商业软件 开源软件

CSM:可以同时管理多个集群,包括 UNIXxCAT:IBM 组织开发的开源 Li

集群和 Linux 集群

并行环境 PE:充分优化的 MPI 及调试工具

nux HPC 集群软件

MPICH, MVAPICH,OpenMP

作业管理与调度LoadLeveler:作业管理、记帐、断点/续算 TORQUE,MANUI,OpenPBS

软件

高性能并行

文件系统

高性能数学

函数库

编译器

系统资源管理

软件

(Checkpoint/Restart)功能

GPFS

NFS,PVFS ,CIFS

ESSL ,PESSL Goto,LAPCK,FFTW

xlC,xlf,xlf90

IBM WorkLoad Management(WLM)

GCC,G77


本文标签: 计算集群节点高性能管理