admin管理员组

文章数量:1536096


2024年6月18日发(作者:)

第 22卷 第 12期

2023年 12月

软件导刊

Software Guide

Vol. 22 No. 12

Dec. 2023

基于华为鲲鹏处理器的计算课程教学环境构建

张战炳

1

,于潇雪

1

,高亦沁

1

,周芸

2

,周衍晓

2

,林新华

1

(1.上海交通大学 网络信息中心, 上海 200240;2.上海擎云物联网股份有限公司, 上海 200070)

摘要: 为响应国家掌握核心技术,加快推进国产自主可控替代的号召,上海交通大学在国内高校中率先建设基于

华为鲲鹏处理器的高性能计算平台,面向校内广泛的科学计算用户和师生提供服务。平台采用华为鲲鹏920处理器

所建设,通过与π2.0超算平台配置相同的SLURM作业调度系统和共享统一的Lustre并行文件系统,确保用户的一致

性体验。通过Spack编译部署和Singularity镜像部署两种软件管理方式,丰富了平台的科学计算软件列表,对常用的

科学计算软件LAMMPS、GATK等进行测试,证明了平台的可用性和性能指标优越。同时,基于平台构建了计算课程

教学支撑环境,可支撑线上线下混合式教学和大规模虚拟仿真实验教学。平台的建设为兄弟高校建设和使用ARM

超算积累了经验,通过教学支撑的实践提升了教学质量,为学生的学习和发展提供了更好的条件和机会。

关键词: 高性能计算;华为鲲鹏;ARM架构;性能测试;课程教学

DOI:10.11907/rjdk.231873

中图分类号:TP391 文献标识码: A

开放科学(资源服务)标识码(OSID):

文章编号:1672-7800(2023)012-0154-07

Teaching Environment for Computing Courses Based on Huawei Kunpeng Processor

ZHANG Zhanbing

1

, YU Xiaoxue

1

, GAO Yiqin

1

, ZHOU Yun

2

, ZHOU Yanxiao

2

, LIN Xinhua

1

(k and Information Center, Shanghai Jiao Tong University, Shanghai 200240, China;

ai Kinglot Co., Ltd., Shanghai 200070, China)

Abstract: In response to the call of the country to master core technologies and accelerate the promotion of domestically produced autonomous

and controllable substitution, we provide a teaching environment for domestically produced computing courses to teachers and students on cam‐

pus. Shanghai Jiao Tong University is the first among domestic universities to build a high-performance computing platform based on the Hua‐

wei Kunpeng processor, providing services to a wide range of scientific computing users and teachers and students on campus. The platform is

built using the Huawei Kunpeng 920 processor, and is configured with the same SLURM job scheduling system and a shared unified Lustre

Spark compilation deployment and Singularity image deployment, the platform's list of scientific computing software has been enriched. Com‐

parallel file system as the π 2.0 supercomputing platform to ensure a consistent user experience. By using two software management methods,

mon scientific computing software such as LAMMPS and GATK have been tested, proving the platform's superior availability and performance

indicators. At the same time, a computing course teaching support environment has been constructed based on the platform, which can support

mixed online and offline teaching and large-scale virtual simulation experimental teaching. The construction of the platform has accumulated

experience for the construction and use of ARM supercomputing in brother universities, improved teaching quality through practical teaching

support, and provided better conditions and opportunities for students' learning and development.

Key Words: high performance computing; Huawei Kunpeng; ARM architecture; performance testing; course teaching

0 引言

高性能计算(High Performance Computing, HPC)在推

动科学、工业、医学和教育的发展进程中至关重要,可大规

收稿日期:2023-08-14

基金项目:上海市经信委城市数字化转型专项(202201026)

模服务于全校教学、科研和管理等环节

[1-3]

。长期以来,高

性能计算机的处理器都被通用性强且性能高的Intel x86

架构处理器所垄断,包括中国在内的很多国家都被迫依赖

进口芯片来部署大规模超算系统

[4]

近年来,随着功耗问题得到广泛重视

[5]

,一直活跃于

作者简介:张战炳(1993-),男,硕士,上海交通大学网络信息中心助理工程师,研究方向为高性能计算;林新华(1979-),男,博士,上海

交通大学网络信息中心高级工程师、博士生导师,研究方向为高性能计算。本文通讯作者:林新华。

第 12 期

张战炳,于潇雪,高亦沁,等:基于华为鲲鹏处理器的计算课程教学环境构建

·155·

移动、嵌入式领域的ARM芯片开始凭借其低功耗、低费用

的优势在HPC领域发力

[6-7]

ThundeX2

。美国Marvel公司制造的

[8]

、日本富士通设计的A64FX

[9]

和中国华为研发

的鲲鹏920芯片

[10]

,正成为HPC传统x86架构处理器的替

代品

[11]

。国外研究将ARM处理器应用于HPC系统的时间

较早,

HPC系统的可能性

在2013年就有研究者评估了ARM处理器应用于

[12]

。2015年,欧洲联合研究项目勃朗

峰(Mont-Blanc)发布了基于ARM Cortex-A15处理器的超

算原型

[13-14]

。2020年,日本基于ARM A64FX处理器建设

的富岳(Fugaku)

[15-16]

问鼎全球高性能计算机TOP 500榜

单,成为世界上首个基于ARM架构的顶级超级计算机,展

ARM

了ARM

处理器引入

架构在

HPC

超算

集群的时间较晚,

领域的非凡潜力

2019

。而在国内,将

有针对面向HPC的ARM处理器评测

[17-19]

。在高校,

年开始逐渐

目前

仍未见ARM架构超算的建设和使用。

为摆脱进口依赖,响应国家掌握核心技术,加快推进

国产自主可控替代的号召,上海交通大学基于国产ARM

芯片建设了一台超级计算机

ARM

——国产超算平台,也称为

首个建成和投入使用的

超算平台。上海交通大学国产超算平台是国内高校

ARM架构超算,可为兄弟高校建

设和使用ARM超算积累经验。

为了源源不断地培养高水平创新人才,上海交通大学

在国内高校率先提出将计算深度融入专业课教学的新理

念。通过深度融合计算与专业课,研发数据驱动的全过程

计算教学在线实践平台,以国产超算平台构建计算课程教

学支撑环境,支撑线上线下混合式教学和大规模虚拟仿真

实验教学,为学生提供沉浸式的在线学习体验和个性化的

学习资源服务。这是国内高校首次践行基于ARM超算的

教学支撑实践,为ARM超算的推广应用提供了一个新的

视角。

该工作主要有以下3个创新点:①建设并运营了高校

首台ARM架构超算,为ARM超算的建设和使用积累了经

验;②对超算上广泛使用的科学应用进行了移植和评测,

为ARM超算使用者提供了有价值的参考和借鉴;③探索

了基于ARM超算的教学支撑实践,为ARM超算的运营和

推广提供了新视角。

1 系统介绍

1.1 硬件配置

目前,国产ARM芯片厂商包括天津飞腾、华为海思和

阿里平头哥等

[20]

。其中,华为于2018年推出的鲲鹏920是

业界首款7 nm数据中心级ARM处理器

[10]

,且过往研究表

明其拥有不错的高性能计算应用运行性能,在绿色计算领

域具有极强的竞争力

[18]

。因此,上海交通大学国产超算平

台基于华为鲲鹏920处理器建设,共100个计算节点,每节

点配备128核(2.6 GHz)、256 G内存(16通道DDR4 2933)。

由于超算集群的节点间通信流量极大,对链路带宽和

通信延迟均提出了很高的要求。目前,超级集群建设通常

采用InfiniBand(IB)

[21]

和Omni-Path Architecture(OPA)

[22]

两种高吞吐、低延迟的高性能通信架构。相较于OPA,IB

的发展优势更明显,是HPC领域中活跃的第一大互联网

[23]

,因此国产超算平台采用IB网络承载节点之间的

通信。

1.2 软件环境

上海交通大学原有基于Intel Cascade Lake 6248芯片

建设的π2.0超算平台

[24]

,也称作x86超算平台。国产超算

平台的加入是整个超算中心的一次重大扩展,为了保障不

同平台使用体验的一致性,国产超算平台采用了和π2.0平

台相同的CentOS操作系统版本和Slurm作业调度系统

[25]

版本作为基础环境。其中,

release 7.6.1810

aarch64

Worker

,作业调度系统版本为

操作系统版本为

7.

CentOS Linux

ARM128C256G

Slurm

点的

作业调度系统通过修改

配置文件,将国产超

Controller

算平台命

节点和

名为

算平台作业提交体验的一致性。

队列,并无缝接入π2.0平台,从而保持多计

2 共享文件系统接入

2.1 IB网络拓扑

为了充分保障网络带宽,在规划国产超算平台的网络

拓扑结构时,考虑了单一大型交换机的中心拓扑结构和胖

树拓扑结构两种方式。过往研究表明,相较于前者,胖树

拓扑结构能在保障网络带宽的前提下价格更低,能有效降

低机房布线施工的难度

[26]

。因此,国产超算平台采用了简

化的胖树拓扑结构组建IB网络,详细拓扑结构如图1

所示。

由图1可见,国产超算平台的IB网络包含5台40口小

型交换机,其中3台作为接入层交换机,与计算节点直连;

剩余2台作为核心层交换机,与接入层交换机进行网状连

接。IB网络中的每条物理线路支持200 GB/s的通信带宽,

整个接入层与计算节点之间合计有10 000 GB/s的通信带

宽,而接入层与核心层之间合计有11 000 GB/s的通信带

宽。由于IB交换机自带路由选择功能

[27]

,可确保接入层

与交换层的数据流量均匀分摊到每一条等价链路上,因此

在胖树拓扑结构下,任意两个节点之间始终享有100 GB/s

的可用通信带宽。

2.2 Lustre文件系统配置

为了提供给用户无差别的数据访问服务,国产超算平

台采用了以存储为中心的设计思路,接入π2.0超算平台的

统一存储集群。π2.0超算平台中,存储采用Lustre

[28]

并行

文件系统,服务端版本为lustre-2.12.4,由两台MDS/MGS

与10台OSS服务器组成,内部采用OPA高速网络互联。

对于国产超算平台而言,为接入π2.0超算平台的统一存储

·156·

软件导刊

OPA网络IB网络

2023 年

存储集群

LNet 路由器

LNet 路由器

LNet 路由器

40口交换机40口交换机

10路

9路

9路

9路

9路

9路

40口交换机

18路

40口 交换机

16路

40口 交换机

16路

36计算节点32计算节点32计算节点

Fig. 1 IB network topology

图1 IB网络拓扑结构

集群,需解决Lustre客户端安装、LNet网络配置两个问题,

打通与Lustre服务端的流量限制。

Lustre客户端的版本选择受限于服务端版本、操作系

3 应用软件部署

面向超算平台的计算软件环境构建,存在基础依赖差

异大、编译过程复杂、多版本共存等问题

[29]

。为解决上述

问题,一系列软件包管理器应运而生

[30]

,国产超算平台主

要采用Spack

[31]

、Singularity

[32]

方式提供应用软件的部署。

3.1 Spack编译方式

统类型、操作系统版本等因素,且由于官方预编译软件包

客户端版本进行编译安装和测试,在综合考虑兼容性、测

试性能后选定lustre-client-2.12.4版本。在网络连接的实

施方面,Lustre服务端采用OPA网络,而国产超算平台采

用IB网络,因此需解决异构网络的连通问题。首先,在国

产超算平台采用路由节点(LNet Router)桥接的方式与

台接入层交换机分别接入一台路由节点,从而可分流与

制成为集群数据访问性能的瓶颈。然后,在Lustre服务

OPA和IB异构网络之间的流量。

未适配ARM架构。因此,国产超算平台尝试对多个Lustre

源码编译方式安装的软件能保证与ARM架构兼容,

可调整参数优化性能。基于以往研究经验

[29]

,Spack使用

方便、灵活、可定制,因此国产超算平台采用Spack源码编

译方式作为首选软件安装方式。

Spack作为一款包管理器,将编译过程中的关键步骤

Lustre服务端连通。在实际操作中,国产超算平台中的3

Lustre服务端之间的数据流量,避免路由节点的吞吐量限

端、客户端、路由节点分别配置好LNet路由,以成功打通

基于上述操作,国产超算平台成功接入了π2.0超算平

抽象为一系列函数。在实际执行时,Spack将根据用户编

写的函数流程完成源码下载、解压、编译、安装等过程。

Spack编译选项丰富,可指定软件版本、优化选项、编译器、

依赖软件包等参数,具有高度的灵活性、易用性和可扩展

(Environment Module),简化了软件调用的难度。目前,国

性。因此,Spack编译的软件会自动生成相应的环境模块

台的Lustre文件系统,从而构建了一套存储、多种计算的

数据密集型超算平台。

第 12 期

张战炳,于潇雪,高亦沁,等:基于华为鲲鹏处理器的计算课程教学环境构建

·157·

产超算平台已通过Spack部署了大量常用软件,如表1

所示。

Table 1 Part of Apps installed by Spack on domestic supercomputing

platform

表1 国产超算平台上由Spack部署的部分软件

软件名

cmaq

gromacs

python

r

julia

gatk

bwa

版本

0.7.17

4.2.0.0

2020.4

1.6.0

3.7.4

3.6.2

5.3.1

编译器

gcc-9.3.0

gcc-9.3.0

gcc-9.3.0

gcc-9.3.0

gcc-9.3.0

gcc-9.3.0

gcc-9.3.0

3.2.2 非特权用户自定义镜像

Singularity recipe制作镜像,但为了满足用户自定义构建镜

在Docker中运行Singularity来赋予非特权用户构建SIF镜

出于安全性的考量,普通用户无法在超算平台使用

像的需求,国产超算平台采用Dockerized Singularity方式,

像的权限。具体为,国产超算平台将一个计算节点作为镜

像构建节点,所有用户共享一个build账号用于构建镜像,

用户通过Docker特权模式(--privileged)进入预装有Sin‐

gularity的Docker容器,在内部获取root权限即可执行Sin‐

gularity recipe进行镜像构建,构建完毕后镜像的所有者仍

为root,普通用户仅拥有读取、执行权限。

综上,国产超算平台的非特权用户镜像构建流程具有

集群安全、体验一致、使用灵活的优势,可满足用户对特殊

科学软件自定义构建的需求。

3.2 Singularity镜像方式

对于一些Spack不支持、难以安装或性能不佳的软件,

国产超算平台使用容器作为重要补充手段。目前,流行的

容器构建工具有Singularity和Docker。其中,Docker为普

通用户提供了特权模式(--privileged),允许其进入容器后

以root权限执行任何操作,更适合微服务的形式,但无法

满足高性能计算中多用户环境的安全性要求

[33]

。因此,国

产超算平台选择Singularity作为构建镜像的工具。

3.2.1 预编译镜像

4 实际应用性能评测

[35]

Analysis Toolkit)

等科学应用进行正确性测试和性能测

国产超算平台通过对LAMMPS

[34]

、GATK(Genome

试,以验证平台软件的可用性与性能,部分科学应用的测

试结果如表3所示。

对于常见的应用,国产超算平台提供预编译镜像供用

测试分别基于国产超算平台和π2.0超算平台,由于两

大计算集群使用的文件存储相同,集群内的网络带宽、集群

与存储间的网络带宽也相同,因此评测更多集中在两大集

群的处理器架构和单节点配置差异导致的应用性能差异。

本文以LAMMPS和GATK应用为例,展示具体评测过程。

4.1 LAMMPS测试

户直接使用,整合了基础软件环境的基础镜像和部署了专

业软件的应用镜像(见表2)。基础镜像将通用软件依赖打

包安装,可避免重复性工作;应用镜像则进行科学应用软

件的打包、测试和优化,方便用户即开即用。对于国产超

算平台尚未提供的软件,用户可在Docker Hub、Singularity

Hub等开源镜像软件源上寻找合适的预编译镜像,只需执

行Singularity pull即可一键部署。

Table 2 Part of App images on domestic supercomputing platform

表2 国产超算平台的部分应用镜像

Chroma

应用名版本

2020

2021

4.2.0.0

3.8.1

8

6.6

-4.1

-4.1

-4.1

-4.1

-4.1

-4.1

Ubuntu 20.04

基础镜像

算物理、计算化学中占有重要地位,具有计算密集型的特

[33]

。上海交大计算平台π2.0超算平台上约有5%的

CPU资源运行LAMMPS计算,本次测试采用的软件版本为

LAMMPS 14 May 2021。LAMMPS在国产超算平台上通过

Spack进行源码编译安装,调用全局部署的GCC 9.3.0、

OpenMPI 4.0.3、FFTW 3.3.8等基础应用环境即可顺利完成

源码安装。

LAMMPS是典型的分子动力学软件,在材料科学、计

quantum-espresso

Openfoam

Gatk

Wrf

Gromacs

Lammps

(1)正确性测试。基于LAMMPS的两个经典算例EAM

和LJ,搭建50万原子的体系,在NPT系统下运行5万步,观

察体系压强。比较压强曲线发现,LJ压强曲线在ARM集

Table 3 Apps tested on ARM cluster

表3 ARM集群上测试的科学应用

应用

GATK

GROMACS

VASP

WRF

LAMMPS

BWA

类别

生命科学

生命科学

材料科学

材料科学

流体力学

材料科学

气象大气

正确性

正确

正确

正确

正确

正确

存疑

不正确

单节点速度

(以x86集群为基准)

1.9×

1.1×

2.0×

1.2×

0.6×

0.5×

-

多节点

并行效率

无需跨节点

无需跨节点

一般

-

π2.0机时占比/%

20

5

5

1

19

1

5OpenFOAM

·158·

软件导刊

2023 年

群和x86集群中几乎完全重合,EAM压强曲线在后半段存

在微弱波动,但整体维持在同一水平线。因分子动力学计

算基于统计热力学,原子存在热涨落波动,一般温度和压

强等宏观参量只要稳定在目标值,结果就算合理。由此可

间。测试结果发现,MarkDuplicates和BQSR任务在ARM

集群上的运行时间分别为x86集群的70%和50%,总体上

(见图3)。

ARM集群单节点运行GATK能达到x86集群性能的1.9倍

知,国产超算平台上的LAMMPS具有计算可靠性。

(2)性能测试。采用LAMMPS的算例EAM,在ARM集

群和x86集群上的测试运行性能,分别比较1、2、4、8、16个

节点的运行速度。算例EAM搭建了86.4万原子的体系,

LAMMPS

NVE系统下运行5 000步,测试结果如图2所示。当

集群单节点的

在ARM

2倍;

集群单节点上运行时,

当扩展到16个节点并行计算时,

其计算速度是

ARM

x86

集群相较于x86集群仍保持1.5倍的优势。从两大集群的

并行效率(假定单节点并行效率为100%)来看,ARM集群

多节点并行的性能损失更明显。

Fig. 2 Performance of a system consisting of 864 000 atoms running

5 000 steps based on EAM examples

图2 采用EAM算例搭建86.4万原子的体系运行5 000步的性能

上述测试结果表明,在国产超算平台上运行LAMMPS

具有计算正确性,

ARM

并在单节点和多节点运行时能充分发挥

4.2 GATK

处理器的多核优势,

测试

以提升其性能。

测序数据分析的工具集,

GATK是由Broad Institute

包含一系列基因组和转录组分析

开发,用于生物信息高通量

工具,是生物信息分析中变异检测的金标准

[35]

,在π2.0超

算平台上的机时占比达

4.2.0.0

20%。测试采用的GATK版本为

依赖环境为

,在国产超算平台上通过

openblas 0.3.9

GCC 9.3.0,openjdk 1.8.0

Spack

进行源码编译安装,

Python 3.7.4,r 3.6.2,

(1)正确性验证。基于官方提供的测试数据和测试流

程(https:///gatk-workflows),在ARM集群和x86

集群分别运行GATK变异检测流程,发现两次结果中检测

出的位点总数一致,位点REF值和ALT值相同,仅约0.4%

的位点存在PL值差异,且差异较小。由于位点PL值每次

运行都存在微小差异,

ARM

集群上的

2)性能测试。基于上述相同的测试数据和分析流

GATK具有计算可靠性。

但并不影响最终结果,因此可表明

GATK

,分

软件的

别在ARM

MarkDuplicates

集群单节点

、BQSR

和x86

模块,

集群

收集模块运行时

单节点上运行

Fig. 3 Performance comparison between GATK MarkDuplicates and

BSQR modules

图3 GATK MarkDuplicates和BSQR模块的性能比较

综上,GATK在ARM集群上具有计算可靠性,且能充

分发挥多核优势来实现更高的单节点计算性能。

5 计算课程教学实践

上海交通大学研制的计算教学在线实践平台,能为师

生个性化定制在线实践课程及配套实验环境,支撑课堂直

播、实验实训、作业考试、在线测评、微认证等全过程计算

教学。平台基于国产超算平台构建虚拟仿真实验环境,可

与课程教学资源有机结合,使学生边学边练,在做中学。

例如,材料智能设计与制备加工课程通过在国产超算平台

部署课程实验镜像模板,包含电子结构计算软件、分子动

力学软件等软件应用,密度泛函理论、蒙特卡罗等计算方

Notebook

,以图

3D

虚拟仿真等多种模式构建虚拟仿真实验环境

桌面、系统命令行、IDE在线编程、Jupyter

见图4),一站式提供课程所需的专业计算软件,根据课程

实验规模实时调度计算资源,实现资源的自动管理。

目前,国产超算平台已部署、上线了人工智能数学基

础、多尺度材料模拟与计算、航空航天计算方法、分子模拟

的理论与实践、计算生物学、前沿技术与计算实践、云计算

及虚拟化等多门课程的虚拟仿真实验环境,涵盖人工智

能、材料、化学、生物、航空航天众多领域。

6 结语

作为国内高校第一台ARM超算,上海交通大学国产

超算平台的建设为兄弟高校建设和使用ARM超算积累了

经验,践行的数据密集型超算建设,为超算平台的发展提

供了技术探索。平台实践表明,当前ARM架构的软件生

态已可满足高校主流的科学计算需求。进一步,国产超算

平台可为计算课程实践提供良好的支撑环境,通过部署课

第 12 期

张战炳,于潇雪,高亦沁,等:基于华为鲲鹏处理器的计算课程教学环境构建

·159·

Fig. 4 Experimental environment for neural networks chapter in the course of intelligent design and preparation of materials

图4 材料智能设计与制备加工课程神经网络章节的实验环境

程实验镜像模板,将虚拟仿真实验环境与课程教学资源有

机结合,为师生提供个性化定制的在线实践课程及配套实

验环境。

国产超算平台的建设和教学支撑环境的构建,为科学

计算用户和学生提供了先进的计算资源和教学支持,不仅

提升了学校的科研水平和教学质量,也为学生的学习和发

展提供了更好的条件和机会。上海交通大学将继续致力

于推动科学计算和教学的创新发展,为学术研究和教育培

养作出更大贡献。

参考文献:

[1] JIN Z, LU Z H, LI H Y, et al. Origin of high performance comput‐

ing —— current status and developments of scientific computing applica‐

2019, 34(6): 625-639.

tions[J]. Bulletin of Chinese Academy of Sciences (Chinese Version),

[2] ZHAO Y, ZHU P, CHI X B, et al. Analyzing the demand and develop‐

ment of high-performance computing applications[J]. Computer Research

and Development, 2007, 44(10): 1640-1646.

算机研究与发展, 2007, 44(10):1640-1646.

[3] LIAO X K, XIAO N. New high-performance computing system and tech‐

nology[J]. Science China: Information Science, 2016, 46(9): 1175-

1210.

廖湘科, 肖侬. 新型高性能计算系统与技术[J]. 中国科学: 信息科

学, 2016, 46(9): 1175-1210.

[4] XIE Z F,YANG X R. An in-depth survey of China's chip industry[J].

Yingcai, 2018(6): 36-37.

赵毅, 朱鹏, 迟学斌, 等. 浅析高性能计算应用的需求与发展[J]. 计

[7] PRUITT D D, FREUDENTHAL E A. Preliminary investigation of mobile

system features potentially relevant to HPC[C]// 2016 4th International

[8] GWENNAP L. ThunderX2 strengthens ARM servers: cavium starts pro‐

duction of world's most powerful ARM CPU[J]. Microprocessor Report,

[9] Xinhua News Agency. Japan's Fujitsu unveils new supercomputing "brain"

[J]. China Construction Informatization, 2018(16):7.

新华社. 日本富士通发布新型超算“大脑”[J]. 中国建设信息化, 2018

(16): 7.

[10] SU Y. Huawei Kunpeng 920: a brave "core"[J]. Computer and Net‐

work, 2019(21): 78-79.

78-79.

苏月.华为鲲鹏920:一颗勇敢的"芯"[J].计算机与网络, 2019(21):

[11] SENGER H, SOUZA J F D, GOMI E S, et al. Performance of devito on

HPC-optimised ARM processo[DB/OL].

1908.03653.

https:///abs/

2018, 32(5): 1,4-6.

Workshop on Energy Efficient Supercomputing, 2016: 54-60.

[12] RAJOVIC N, CARPENTER P M, GELADOG I, et al. Supercomputing

with commodity CPUs: are mobile SoCs ready for HPC?[C]// Proceed‐

Networking, Storage and Analysis, 2013: 1-12.

ings of the International Conference on High Performance Computing,

[13] PUZOVIC N. Mont-Blanc: towards energy-efficient HPC systems[C]//

Proceedings of the 9th Conference on Computing Frontiers, 2012:

[14] ALLALEN M, BRAYFORD D, TAFANI D, et al. The Mont-Blanc proj‐

ect: first phase successfully finished[DB/OL]. https:///abs/

[15] MONROE. Fugaku takes the lead[J]. Communications of the ACM,

[16] MATSUOKA S. Fugaku and A64FX: the first exascale supercomputer

and its innovative ARM CPU[C]// 2021 Symposium on VLSI Circuits,

[17] WANG Y C, CHEN J K, LI B R, et al. An empirical study of HPC work‐

loads on Huawei Kunpeng arm-based processor[C]// 2019 IEEE 25th In‐

360-367.

ternational Conference on Parallel and Distributed Systems, 2019:

[18] WANG Y C, LIAO Q C, ZUO S C, et al. Performance evaluation of an

2021: 1-3.

2020, 64(1): 16-18.

1508.05075.

307-308.

谢泽锋, 杨旭然. 中国芯片业深度调查[J]. 英才, 2018(6): 36-37.

[5] GEIST A, REED D A. A survey of high-performance computing scaling

challenges[J]. The International Journal of High Performance Computing

[6] CANUTO M, BOSCH R, MACIAS M, et al. A methodology for full-sys‐

tem power modeling in heterogeneous data centers[C]// 2016 IEEE/ACM

20-29.

9th International Conference on Utility and Cloud Computing, 2016:

Applications, 2017, 31(1): 104-113.

·160·

软件导刊

[J]. 计算机工程与应用, 2007, 43(3): 119-121.

2023 年

ARM processor for high performance computing[J]. Computer Science,

2019, 46(8) :95-99.

王一超, 廖秋承, 左思成, 等. 一种 ARM 处理器面向高性能计算的

性能评估[J]. 计算机科学, 2019, 46(8): 95-99.

[19] GE Z R. Performance evaluation and application porting optimization of

HPC systems for ARM architecture[D]. Lanzhou: Lanzhou University,

2021.

戈孜荣. 面向ARM架构的HPC系统性能评测及应用移植优化[D].

[27] DONG X S, JIA Z G, ZHAO Q P. Research on InfiniBand switching

mechanism[J]. Microelectronics and Computer, 2004, 21(2): 81-85.

与计算机, 2004, 21(2): 81-85.

[28] BRAAM P. The Lustre storage architecture[DB/OL]. https:///

[29] WEI J W, WANG J, WEN M H, et al. Building a high-performance

abs/1903.01955.

董小社, 贾志国, 赵青苹. InfiniBand 交换机制的研究[J]. 微电子学

兰州: 兰州大学, 2021.

[20] GU Z S. Research report on 35 domestic processor chip (CPU/GPU/FP‐

GA

2.

) vendors

家国产处理器芯片

html.

[EB/OL]. https:///news/

顾正书. 35(CPU/GPU/FPGA)厂商调研报告[EB/

[21] PFISTER G F.

OL]. https://www.

An introduction to the InfiniBand architecture

/news/.

[M]. New

[22] BIRRITTELLA

York: Wiley-IEEE Press

M S, DEBBAGE

,2002.

M, HUGGAHALLI R, et al. Intel®

omni-path

C]// IEEE

architecture

23rd Annual

: enabling

Symposium

scalable

on High-Performance

, high performance

Intercon‐

fabrics

[23] LU P J

nects, 2015

, DONG D Z

: 1-9.

, LAI M C, et al. A review of high performance com‐

puting and data centre converged networks

versity of Defense Technology

陆平静, 董德尊, 赖明澈, 等

, 2023

. 高性能计算和数据中心融合网络研究

, 45(4

):

J]

1-10.

. Journal of National Uni‐

综述[J]. 国防科技大学学报, 2023, 45(4): 1-10.

[24] Shanghai Jiao Tong University. SJTU HPC[EB/OL]. https://.

[25] YOO A B

/Item/Intro.

, JETTE M A

htm.

, GRONDONA M. Slurm: simple Linux utility for

resource

Parallel Processing

management

, 2003

[C]

//

44-60.

Workshop on Job Scheduling Strategies for

[26] WANG W Y, CHEN H H. Analysis and research on InfiniBand cluster

system based on fat tree topology

tions

王文义,

, 2007

陈荟惠

, 43(3

.

用胖树拓扑构建

: 119-121.

[J]. Computer Engineering and Applica‐

InfiniBand 集群系统的分析与研究

computing software environment using Spack package manager

ratory Research and Exploration

韦建文, 王杰, 文敏华, 等. 使用

, 2020

Spack

, 39(

软件包管理器构建高性能计

7): 118-121,137.

[J]. Labo‐

算软件环境[J]. 实验室研究与探索, 2020, 39(7): 118-121,137.

30] HEGDE S G, RANJANI G. Package management system in Linux[C]//

31] GAMBLIN T

2021 Asian Conference on Innovation in Technology

, LEGENDRE M, COLLETTE M R, et al.

, 2021

The Spack pack‐

: 1-6.

age manager

the International Conference for High Performance Computing

: bringing order to HPC software chaos[C]// Proceedings of

ing, Storage and Analysis, 2015: 1-12.

, Network‐

32] KURTZER G M, SOCHAT V, BAUER M W. Singularity: scientific con‐

33] CHEN Y Y

tainers for mobility of compute

, WANG X N, LU S S

[J].

PloS one

et al. Review of container technology

, 2017, 12(5): e0177459.

for high-performance computing systems

50

[J]. Computer Science,

陈轶阳,

(2): 353-363.

2023,

王小宁, 卢莎莎, 等. 面向高性能计算系统的容器技术综述

[J]. 计算机科学, 2023, 50(2): 353-363.

34] THOMPSON A P, AKTULGA H M, BERGER R, et al. LAMMPS-a

flexible simulation tool for particle-based materials modeling at the atom‐

ic

tions

, meso

, 2022

and

271

continuum

: 108171.

scales[J]. Computer Physics Communica‐

35] MCKENNA A, HANNA M, BANKS E, et al. The genome analysis tool‐

kit

ing data

: a mapreduce framework for analyzing next-generation DNA sequenc‐

[J]. Genome Research, 2010, 20(9): 1297-1303.

(责任编辑 :刘嘉文)


本文标签: 平台超算计算国产节点