建算力是现在的热点,但管算力却没有引起足够的重视。就像孩子一样,三分生,七分养。算力运维运营其实比建算力更为重要。
5月6日,人工智能企业Anthropic启动了“AI for Science”计划,旨在为全球范围内从事高影响力科学项目的研究人员提供算力支持。据悉,这项计划旨在缓解高校的算力紧缺问题。
在我国,高校算力基础设施建设正如火如荼地开展:智算在高校算力建设中异军突起,超算、通算平稳发展,超算、智算、通算呈三足鼎立之势。高校算力建设结构性变化的背后,是AI时代算力需求的变革。
随着生成式AI的加速发展,AI大模型作为基础设施融入高校的信息化建设中,“智算建设显著增长主要存在两个方面的原因:一方面,智算此前在高校中几乎没有基础;另一方面,智算需求正在快速显现,且这一需求更容易被理解——无论是文科院校还是理科院校,校长都知道DeepSeek,更容易得到决策支持。”北京大学计算中心系统管理室主任樊春表示。
新要求,新挑战
智算需求的增长对算力建设提出新要求的同时也带来了新挑战,主要体现在建设规划难、缺乏持续投入的资金、技术服务要求提升、专业人才缺口、安全风险等方面。除此之外,学校的重视程度和政策支持也是影响算力发展的关键因素。
智算建设规划方面,南京大学信息化建设管理服务中心副主任姚舸认为,AI算力投入规模大、难以预测,投入产出比却很难衡量。对于算力建设和服务部门而言,论证投入的合理性面临着挑战。超算集群可以通过显性成果(科研论文致谢、重点项目支持)体现价值,而AI服务作为基础性支撑服务,融入日常的教学、科研和管理中,产出往往是隐性的,难以用具体成果来直接量化。
高性能计算(HPC)社群调查结果显示,超九成高校(93.75%)将“资金的可持续性”列为核心挑战。不少受访者表示,学校的投入资金为0,并没有持续性的投入;还有的受访者表示缺乏资金购买服务器和运营。中国农业大学网络技术中心副主任劳凤丹认为,算力平台的建设和维护需要大量资金,包括设备的购买及后续的维保支持等。由于资金投入不足,许多高校在建设时依据的标准并不高,后期的运维管理也存在很多限制。
智算的出现对算力队伍提供的技术服务也提出了更高的要求。过去,HPC用户集中且专业度高;而如今AI推理的用户群体是全校师生,基数大的同时缺乏专业背景,对技术支持的需求显著增加。中南大学信息与网络中心高性能计算中心主任邹有表示,多数AI开发者通过调用高级框架API开展工作,对底层硬件特性、并行计算范式和系统级优化缺乏深入了解,难以有效利用集群的分布式体系架构,限制了算力资源的利用效率。
专业人才缺口也是绝大部分高校算力队伍建设的痛点。HPC社群调查显示,近七成高校运营团队人数不足5人(68.75%),甚至存在“一人多岗”的现象。南京大学HPC/AI仅有5名人员,还需要兼顾大量其他事务;而中国农业大学智算中心的运维核心团队主要由2名兼职教师组成。类似情况并非个例,除了上海交通大学等极少数高校以外,绝大多数高校的技术支撑团队人数长年维持在个位数。
建算力很重要,管好算力更重要
AI时代,如何促进高校算力平台的可持续发展?
对此,樊春提出了一个很贴切的比喻:“如果把建算力看成买飞机,就像印度一样,只有先进的飞机却无法形成先进战力。实际上,高校的算力平台要想运营得好,需要从制度、人、硬件、系统等体制机制上全面保障,这才是我们面临的最大挑战。”
上海交通大学网络信息中心副主任林新华也有一个很形象的比喻:“建算力是现在的热点,但管算力却没有引起足够的重视。就像孩子一样,三分生,七分养。算力运维运营其实比建算力更为重要。”
针对高校算力服务平台的可持续发展问题,林新华认为,要想实现可持续发展,就要让人们能够看到回报。校领导在做决策的时候都会考虑,这笔钱投进去是否值得?算力中心的负责人首先要考虑这个问题:如何获得第二笔资金?如何让领导觉得这笔资金花的值,还愿意持续投入?只要想清楚这个问题,就能抓住最根本的矛盾,就有望解决可持续发展的问题。对此,至少有两种做法可以参考。第一种做法就是上海交通大学“交我算”的做法——服务聚焦校内,让用户满意。另一种做法就是像从前的东京工业大学那样,算力平台不仅满足校内用户的需求,更像是学校的一张名片,甚至具有国际级的影响力。
AI算力集群的建设成本高昂,究竟如何运营是个很值得探讨的话题。姚舸表示,长远来看,AI算力服务将逐步成为像网络、电力一样的校园关键基础设施,合理的收费模式有助于推动算力资源的普惠应用,让算力像上网一样惠及全体师生。AI算力集群前期建设投入大,后续还要持续扩容,这对高校而言是不小的压力。若算力完全免费,可能会像教室里的公共用电一样被浪费。对此,可以参考校园网络服务的演进历程——设置基本免费额度,超额使用部分按量计费;还可根据模型规模差异进行差异化定价。合理的收费模式不仅能保障资源分配的公平性,还能有效调节供需关系,促进算力资源的高效使用。
通过一些低成本高弹性的方案,资源相对有限的高校也能构建AI算力底座。邹有认为,要实现低成本高弹性,高校首先可以重点拥抱外部的算力资源和服务。其次,可以主动盘活校内现有的分散算力资源,通过技术手段整合到统一的调度和管理框架下,提升存量资源的利用率。第三,探索与产业界建立紧密的合作关系,为高校带来低成本算力资源。
高校还要充分重视算力服务人才队伍建设。劳凤丹认为,应该设立校级算力服务团队,算力服务技术与高校信息化部门已有技能储备存在很大差异,团队上手及深入掌握存在很高的门槛。为提升校级高算平台服务全校各学科、支撑学校高水平科研工作和人才培养的能力,进一步激发智算服务支撑工作者的积极性,有必要制定相应的人员及配套激励政策。
智算的安全问题也需要引起足够重视。樊春表示,一方面,AI产出的内容存在安全风险,有时候会涉及一些敏感内容。另一方面,还存在知识库服务器的安全风险,这种风险与传统的信息化安全较为接近。当AI部署在本地后,很多应用都是围绕知识库问答展开的。通常知识库系统里面会挂载多个不同的知识库,很多信息不能出校。一旦被黑客攻破,这些内容就可能被泄露。因此,知识库系统平台需要做好安全防护。
HPC社群调查中,针对如何促进高校算力平台可持续发展,受访者们在资金投入、政策扶持、体制机制、人才队伍建设、用户服务、基础设施保障等方面提出了建议。具体包括,要得到校领导的高度重视,在政策扶持和资源配置方面予以适度倾斜,同时给予持续投入的资金;增强制度的包容性,健全培养体系和奖励机制;建立一支高水平的、具有专业背景的人才队伍;协助用户取得更高水平的成果;提供必要的空间与电力保障,确保设备正常运转。
AI时代,高校算力平台既是支撑前沿科研创新的核心基础设施,又是培养复合型技术人才的关键实践载体。高校可以通过制度保障、人才队伍建设、提升服务质量等举措促进算力平台的可持续发展,筑牢数字时代的创新基石,为推动前沿科技突破注入持久动能。
来源:《中国教育网络》2025年5月刊
撰文:陈茜