超算中心对中国科大科研的支持成果非常显著,自2004年至2023年,超算中心支持用户发表的论文总数达到3017篇,其中包括196篇顶级期刊论文。
新质生产力是创新起主导作用的先进生产力质态,科技创新是发展新质生产力的核心要素。在新一轮科技革命和产业变革大背景下,算力作为新质生产力的重要组成部分,其重要性日益凸显。对于高校科研而言,算力为解决复杂科学问题提供了强大的动力,成为现代科研的加速器,科研对算力的需求越来越大。如何构建高效的算力系统,提供技术支持和服务,推动算力在科研中的深度应用,已成为高校亟待解决的一个现实课题。
中国科学技术大学超级计算中心(以下简称“超算中心”)成立于2003年,是国内最早的校级超算中心之一。经过20多年的发展,超算中心坚持优先支持科研的服务理念,助力了众多重大科研项目,为学校科研提供了坚实支撑。在这一过程中,超算中心积累了丰富的服务用户和赋能科研的工作经验,形成了一系列行之有效的方法和实践,其中尤为突出的包括按需建设校级超算系统;注重技术支持和用户培训;针对用户科研需求,开发优化用户程序;主动服务用户,持续提升用户体验等。
三层资源架构按需建设校级超算
作为一所以前沿科学和高新技术为主的研究型全国重点大学,中国科学技术大学(以下简称“中国科大”)对算力资源的需求非常旺盛,单靠学校超算中心的资源远远无法满足,校内用户获取算力服务主要有三种来源。
首先是不少院系、课题组等已经建有的大大小小的超算系统,虽然单个系统一般只能运行几十、几百核的作业,但合起来比中心大得多。这些系统具有使用方便、排队时间短等优势,同时也存在重复建设、场地限制、维护管理水平参差不齐和信息安全风险等问题。
当有些课题短时间内需要极大计算资源时,比如需要几万核甚至几千万核运行作业,我们介绍鼓励这些用户利用校外的国家超算、中科院超算、上海超算等资源。校外超算资源提供了强大的计算能力,但在实际使用中,数据传输速度往往成为瓶颈。当用户需要在本地与校外超级计算资源之间传输大量数据时,数据传输可能需要耗费数天甚至数十天,有时用户不得不直接使用硬盘等存储设备去校外超算机构处理。此外,有时校外超算系统总理论峰值性能很高,但因设备较旧实际单核性能不高,或存在兼容性问题。加之用户众多,校外超算机构一般会优先支持重点用户,普通用户的需要可能得不到及时响应。
综合考虑校内用户需求和资源利用的充分性,中国科大建设了中间规模的超算系统,目前支持单作业千核和万核级别并行,具有数据传输快速、技术支持响应及时、应用实际性能高等优点。
学校超算系统的建设原则是满足科研的实际需求,不盲目追求规模或排名。20多年间,学校累计投入已达1.6亿元,主要采用滚动更新的方法,每年进行小规模更新,确保有新的设备可供应用适配调优;每三到五年建设一套大型超算系统,以支持大规模并行计算的需求。在建设过程中,为确定选型,超算中心会进行用户需求调研,调研厂家及兄弟单位等了解行业发展,并进行必要的应用测试以评估性价比,确保选择合适且高性价比的配置和规模。
超算中心作为一个技术支撑服务机构,隶属于学校网络信息中心。中心业务主要受学校公共实验中心指导,经费来源也主要通过公共实验中心申请。中心设有超级计算专家组,由研究超算的计算机专家和典型的超算用户组成,他们从计算发展趋势和用户需求出发,为中心的重大决策提供指导,并向学校争取资源。超算中心优先支持科研,同时为教学服务,主要有四大业务,包括提供算力资源、用户超算系统托管、用户培训和技术支持、用户程序开发优化等。
目前中国科大共有三套超算系统正在运行,购置价约1.2亿元,总双精度浮点计算能力达到每秒5720万亿次,共65096颗CPU核、236颗NVIDIA A100和V100 GPU卡,13.6PB可用存储。
曙光TC4600百万亿次超级计算系统是资深成员,分2014、2015、2016年三次建设完成,总价值约2600万元。尽管已运行了8~10年,计算能力只有新购置系统的一半,但由于用户需求旺盛,仍然老当益壮,仍旧是超算中心不可或缺的一部分。
瀚海20超级计算系统是一套以CPU为主的计算平台,于2019年开始建设,投资约5300万元。它采用了华为的板级液冷服务器技术,绿色节能密度高,单机柜能够容纳72台双路CPU服务器,功耗高达37kW。
曙光TC4600及瀚海20两套超算系统均以CPU节点为主,且存储空间较小,利用率高,资源供应紧张。为满足生命科学、材料科学、力学和AI等科研项目应用对GPU、存储性能及容量的需求,2021年瀚海22超级计算系统应运而生,经2022年和2023年两次扩容,价值3311万元。
目前,超算中心除已建成国外CPU和GPU计算平台外,还积极支持国产芯片的应用,推动自主可控的计算生态建设。
超算中心服务于校内所有院系和重点研究机构,拥有3176个系统账户。由于课题组内多个成员可能共用一个账户,实际用户数量远超此数,用户群体主要集中在化学、材料和物理等学科领域。
在服务校内科研的同时,超算中心响应国家号召服务社会,力所能及地支持校外教育、科研、企业等单位。自2014年起,超算中心建成安徽省高校科研协作高性能计算共享平台,每年为省内教育网高校提供高达260万CPU核时的免费机时。中心目前同时是中国国家网格(CNGrid)合肥中心及中国国家网格合肥运行中心,也是除北京之外的唯一一个运行中心,同时是中国科学院超级计算环境的重要组成部分。
技术支持、用户培训和程序开发
由于多数用户并非超算领域的专业人士,超算中心非常看重技术支持和用户培训,采取了一系列措施,帮助用户尽快熟悉并高效使用超算系统。
超算中心编译安装了大量运行编译环境和用户应用等,采用模块化封装,简化操作流程,用户只需调用相应命令即可执行复杂计算任务。针对用户使用,超算中心主要支持SSH命令行登录方式,同时也部署了北大SCOW WEB界面方式作为辅助,以满足不同用户的使用习惯。超算中心还编写了大量的手册和文档,共18种用户手册和19种技术文档,几乎囊括了用户使用的常见问题,极大地方便了用户的自学和参考。
为了用户的问题能够及时得到解答,超算中心提供了邮件、电话和QQ等即时通讯方式,其中QQ用户群聚集了1945名用户,形成了一个庞大的超算用户社区。在提高解答疑问的效率的同时,也减少了工作人员重复答疑的工作量,同时还形成了一个活跃的用户社区,在这个社区中,用户既可以提问,也能够相互分享经验、交流技巧。
除了提供及时有力的技术支持以外,超算中心注重对用户使用技能的培训,切实提高用户的实操能力和科研素养。超算中心成立了研究生超级计算实验训练中心,并不定期邀请校外专家,举行培训讲座。为了进一步提升用户的使用水平,超算中心在2019年建立了中国科大兼安徽省教科网计算实训平台,集教学辅助、实验和科研为一体,可以面向高性能计算、深度学习等应用灵活构建学习和实验环境。面向教学和学习场景,平台提供系统、编译器、调度系统、深度学习算法等多种包含引导过程的实训资源;面向实验和科研场景,平台为用户提供了自定义计算环境的功能,用户可登录平台根据需求申请计算资源。平台允许用户一边观看教程、一边熟悉命令和编写测试程序等,从而更快地掌握超算的使用。
由于多数用户集中在物理、化学等专业领域,超算中心还会积极与用户进行合作,开发优化用户关键计算程序,开发高需求的计算模块与应用等,助力用户取得重大成果。
谢毅院士、俞书宏院士、叶邦角教授等课题组在进行材料模拟、缺陷表征工作时,需要快速精确的正电子淹没态模拟与分析。为此,超算中心张文帅博士开发了正电子密度泛函计算软件与寿命解谱软件,对研究推进发挥了不可或缺的作用,支持用户发表18篇论文(含1篇Nature子刊与4篇JACS化学顶级期刊论文),其中2篇论文为共同一作或通讯作者。
中国地震科学台阵(ChinArray)采集背景噪声用于地质结构的反演探测,其核心模块互相关计算耗时巨大,台阵全年数据在Intel Xeon E5-2620服务器使用单核计算需要花费近6个月。为解决计算瓶颈,国家地震局地球物理研究所联系超算中心开展联合技术攻关。超算中心吴超博士基于CUDA实现整体计算流程的GPU移植、GPU多流计算、CPU多线程I0等多个方面优化设计,GPU加速软件在V100单卡核心模块加速1100多倍,整体性能提高400倍,ChinArray互相关计算耗时从半年降到约10小时。
针对天文学系王慧元课题组开发的密度场演化程序软件HSPM,超算中心张文帅博士进行异构平台移植开发,发现并解决了原CPU版本计算中计算负载不均的问题,完成计算占比90%以上的代码移植优化工作。该项目获首期光合基金项目支持,经过测试,三个算例的平均加速比达到105倍,多卡扩展时并行效率高达83%,超额完成了各项技术指标。该项目被评为优秀课题,且相关成果已实际应用于中国科大与中山大学的联合研究中。
面对庞大的化学空间和传统实验方法的局限性,计算机学院刘淇教授课题组使用图卷积神经网络的方法,开展原子数目超过100个的复杂分子体系研究,比前人的研究规模高一个数量级。超算中心刘晓辉博士为该团队建立了一个单个分子的原子数量大于100个、分子个数约13000个、包含结构文件和第一性原理计算结果的数据库,为该项研究开展提供重要数据支撑。
超算中心致力于提供主动、高效的服务,让用户使用更便捷,最大化用户利益。比如超算中心主动监测用户作业,一旦发现使用虚拟内存、核数与申请资源不符等问题,会及时提醒用户进行处理,避免了潜在的资源浪费。此外,超算中心开发了论文和科研项目自动采集系统,更高效地收集用户致谢信息的同时,简化了用户反馈。
对研究型大学科研的支撑效果
在广泛的用户服务基础上,超算中心和系统平台成为科研的强大后盾,对学校科研的支撑效果显著。
超算中心支持了众多重大科研需求,比如与微尺度材料基因团队合作建立高通量量子材料基因库计算平台,为核学院聚变堆模拟平台和中科院近地空间重点实验室数据模拟平台提供建设和运维支持等。
超算中心对学校科研的支持成果非常显著,自2004年至2023年,超算中心支持用户发表的致谢论文总数达到3017篇,其中包括196篇Nature、Science等顶级期刊论文,占学校顶级期刊的1/10。仅在近两年,超算中心每年支持发表的论文就超过400篇,2023年更是支持发表了451篇SCI论文,包括33篇Nature、Science等顶级期刊论文,其中30篇登上了校主页新闻首页。图1是中国科大超算各年度支持的论文分区数量及顶级论文数量。图2是超算支持的应用领域,基本覆盖学校全部重大领域。
图1 中国科大超算各年度支持的
论文分区数量及顶级论文数量
图2 中国科大超算支持的应用领域
众多在各自学术领域内具有重大影响力且备受瞩目的科研项目,背后都有超算中心和超算平台的支持。比如2021年,超算平台支持潘建伟院士课题组在量子优越性相关模拟计算方面的研究,该课题组的“九章二号”等成果入选国内十大科技新闻及国际物理学领域十大进展。杨金龙院士和胡伟研究员课题组自研的PWDFT平面波基组密度泛函理论计算软件,也在平台的助力下进行了测试优化与推广,该团队发展的高性能量化软件HONPAS/DGDFT,是具有自主知识产权的、准确高效的线性标度第一性原理程序包,为理论计算和模拟提供了实用有效的工具。此外,超算中心还支持了化学与材料科学学院罗毅、江俊教授团队与自动化系尚伟伟等合作打造的“机器化学家”,该项目获得了广泛关注并被央视新闻报道。吴恒安教授团队利用超算平台开展了数千万原子的大规模分子动力学模拟。计算机学院安虹教授及大气科学专业赵纯教授在新一代神威超级计算机上首次实现地球系统跨圈层相互作用的超大规模模拟,使用了3900万个处理器核,荣获美国计算机学会(ACM)首届戈登·贝尔气候建模奖提名。
作为一个技术支撑服务机构,超算中心在服务好教学科研的前提下,有选择性地积极承担与超算工作相关的科研项目,目的是通过参与相关研究努力提升专业能力,优化算力平台,从而为用户提供更好的计算资源和服务。同时超算中心也积极与华为、光合等校外企业、组织合作,参与打造国产通用计算平台的体系结构生态。
例如,超算中心与中国科学院量子信息重点实验室合作发展自主第一性原理软件ABACUS,双方紧密合作,对方负责物理模型等,超算中心沈瑜博士和刘晓辉博士负责对关键算法进行优化。最终计算能力显著提升,整体性能提高一个量级,可计算的体系规模、并行可扩展规模分别提高两个量级,并已经部署在天津超算、广州超算、上海超算、中科院超算和合肥先进计算、校级超算中心系统上。此外,刘晓辉博士还首次将ABACUS软件关键算法移植到了国产异构计算平台,计算性能提升显著。以上相关研究工作获得科技部重点研发、中国科学院先导等国家重点项目的支持。目前,ABACUS软件已经陆续被国内和国际的科研人员以及科技公司使用。
VASP是超算领域用户群非常广、机时非常多的应用。超算中心沈瑜博士带领团队做了VASP数据传输性能分析工作,支持国产RoCE网络等研发。张文帅博士在实现非均匀离散空间自动运行优化技术的基础上,进一步完成基于应用运行数据的机器学习优化方案,已使五千余个VASP用户作业平均加速1.3-8.5倍,如图3所示。
图3 超算中心团队张文帅博士基于机器学习的超算应用运行时优化
在持续提高科研服务水平的探索中,超算中心团队也在不断提升自身的科研能力,不仅增强了中心的专业能力,也极大地丰富了服务质量,实现了与用户共同成长和进步的良性循环。通过这种互动,超算中心与用户之间建立了紧密的合作关系,共同推动科研项目的发展和科技创新。
瀚海22超级计算系统
中国科大瀚海22超级计算系统建设于2021-2023年,一期建设包括25个8卡A100 GPU服务器节点,以及一个可用容量达11PB、聚合读写带宽超过100GB/s的并行文件系统,以充分发挥高性能。2022年二期建设增加了80台双路单节点64核的CPU计算节点和10台四路单节点96核3TB大共享内存节点,2023年系统第三期扩容,增加了66台双路单节点192核的CPU计算节点,这两次扩容主要满足对CPU及大共享内存算力资源的需求。瀚海22的计算能力达到3.05PFlops的双精度浮点性能(FP64)和3.84P的Tensor Core性能,存储系统则采用热温数据分层策略,提供11PB的可用空间,支持随机读取操作的IOPS(每秒输入/输出操作次数)超过205万次,同时读取操作时的聚合带宽达到160GB/s以上,写入操作时的聚合带宽达到100GB/s以上,具有更强的计算、存储性能,保障科研项目的顺利、高效开展。
来源:《中国教育网络》2024年6月刊
作者:李会民(中国科大网络信息中心副主任兼超级计算中心副主任)
责编:余秀