
邹有 中南大学信息与网络中心高性能计算中心主任
在教育数字化转型过程中,算力既是基石,也是引擎与加速器。随着以DeepSeek为代表的大模型兴起,高校算力在硬件资源建设和服务模式方面正经历着明显变化,也迎来了新的机遇与挑战。中南大学信息与网络中心高性能计算中心主任邹有强调,由于异构计算的复杂性,AI算力不仅需要用户提升对底层计算的理解和优化能力,更要求平台运营方提供更友好、智能化的服务接口,完善技术支持体系。算力建设是一个需要顶层设计、持续投入的系统工程,他建议合理借助校外的算力资源和服务,是降低成本的可行思路。
高校算力发展的趋势与难点
《中国教育网络》:今年2月深度求索公司发布DeepSeek,各高校纷纷接入“满血版”DeepSeek。在大模型推动算力需求指数级增长的背景下,您认为高校算力建设和服务正在经历哪些变革?您怎么看待高校算力建设和服务的发展趋势和未来方向?
邹有:大模型的发展对高校算力建设产生了极大的推动作用。高校作为科研和人才培养的第一线,算力需求一直非常旺盛,但光有需求是不够的。算力强调投资建设,“天时、地利、人和”缺一不可。“人和”对应学校对算力的需求和应用能力,“地利”对应学校的财力和领导决策,而“天时”就是以DeepSeek为代表的大模型的兴起。近年来,高校算力建设逐步从传统高性能计算向超智融合转型,不乏高校建设独立的智算平台,满足学校科研、教学与服务中的“AI+”需求。
在硬件资源建设方面,主要呈现出以下三点变化趋势。首先,国产化算力比重增大。当前,国产化算力在不需要双精度的AI场景中具有较高的适用性,政策的支持也大力促进了国产化算力的部署。其次,规模化算力需求凸显。高校的科研团队各自建立小型算力平台的情况屡见不鲜,但AI大模型出现以后,小型算力平台基本无法满足微调或训练的需求,越来越多的高校开始倾向于集中力量建设统一的“大平台”,以满足不同规模的算力需求。最后,公有云和本地资源混合共建的模式越来越多见。推理算力或常规通算需求采用云服务可能具有更高的性价比。
在学校算力平台的服务模式方面,也发生了明显变化。用户不再局限于传统科学计算方向的师生,许多非理工科师生同样有AI需求,需要使用智算算力,因此,需要突破过去基于命令行的算力使用模式,开始推广基于WEB系统的可视化平台。用户通过点击鼠标就可以开展模型训推、发布等操作,而底层的资源调度,也从基于SLURM/PBS等形式的裸金属调度过渡到容器调度,以提供更复杂多样的服务模式。
随着师生AI应用能力逐步提升,算力的规模会进一步扩大,平台能耗将成为一个严峻的问题,未来基于液冷等提升能效的方案应该会更多地被考虑。同时,高校算力及应用成果辐射到社会与市场,可能会出现各种各样的商业模式和运营模式,需要大家共同探索。
《中国教育网络》:与超算相比,AI时代的算力需要突破哪些技术或理念瓶颈?
邹有:AI时代的算力主要由GPU、NPU等异构加速硬件驱动,其底层体系结构与以CPU为主导的传统超算截然不同,异构计算的复杂性对其使用和性能优化提出了更高的要求。目前多数AI开发者通过调用高级框架API开展工作,对底层硬件特性、并行计算范式和系统级优化缺乏深入了解,这导致其难以有效利用集群的分布式体系架构,从而限制了算力资源的利用效率。这一问题成为当前AI算力应用亟待突破的核心技术瓶颈之一。
此外,大规模分布式训练的效率提升与平台的可靠运行是一个充满挑战的技术深水区,远超硬件堆叠本身。要攻克这些难题并充分释放算力潜力,不仅需要用户提升对底层计算的理解和优化能力,更需要平台运营者提供更友好、智能化的服务接口,并建立用户与技术团队之间的常态化沟通与协作机制,共同探索最优的应用部署和系统配置策略。
低成本思路:借力外部算力
《中国教育网络》:能否结合您在信息化教学和算力应用方面的研究和经验,谈一谈算力在推动教育数字化转型过程中扮演着怎样的角色?
邹有:在教育数字化转型过程中,算力既是基石,也是引擎与加速器。首先,算力是运行数字化平台的基础设施。它赋能各种智能化教学应用,支撑构建沉浸式学习环境,驱动教育数据的深度分析,并加速教育领域的科研创新。其次,算力成为衡量一个教育机构数字化成熟度、科研创新能力乃至未来发展潜力的关键战略资源。简单地拥有数字化工具是不够的,能否有效、便捷地利用强大的计算能力去运行更复杂的模型、处理更海量的数据、支撑更前沿的研究,直接决定了教学改革的深度、科研创新的广度以及人才培养的质量。
然而,这并非易事,学校在充分释放算力潜能的过程中,面临着巨大的挑战,包括持续增长的硬件投资压力、高技能运维人才的匮乏,以及如何构建灵活按需的服务模式、如何在开放应用的同时保障数据安全和隐私等。因此,教育数字化转型中的算力建设和服务,不仅是技术问题,更是需要从战略高度进行顶层设计、持续投入和不断优化的系统工程,旨在构建一个开放、智能、安全、普惠的算力生态,真正支撑教育模式的深层变革和创新发展。
《中国教育网络》:对于资源相对有限的高校,您建议通过哪些低成本高弹性的方案构建AI算力基座?
邹有:要实现低成本和高弹性,高校可以着重借助外部的算力资源和服务。这首先意味着深度融合并充分利用混合云和多云策略。通过与主流公有云服务商建立合作,高校可以利用其提供的AI加速计算实例,实现按需弹性扩展。其次,学校还应主动盘活校内现有的分散式算力资源,包括各院系、实验室已有的高性能工作站或小型GPU服务器。通过技术手段将其整合到一个统一的调度和管理框架下,即使无法完全实现自动化弹性,也能提高存量资源的整体利用率,增加可支配算力,减少新的重复性采购需求。
最后,探索与产业界建立紧密的合作关系是一条可行的路径。许多科技企业拥有强大的算力资源,可能愿意通过共建实验室、提供计算资源优惠甚至捐赠硬件等方式与高校开展合作。这不仅为学校带来了额外的低成本算力来源,还可能引入前沿技术和实践经验。
来源:《中国教育网络》2025年5月刊
撰文:余秀