DeepSeek正在成为高校推动教育创新、提升科研水平和培养创新型人才的重要工具。众多高校纷纷积极探索如何将DeepSeek融入教学、科研和管理等核心业务,以实现教育模式的升级和教育质量的飞跃。2月19日,天津大学正式推出私有部署的DeepSeek-R1 671B大模型,为全校师生及科研团队提供了更为优质的服务,成为DeepSeek赋能高等教育的典型案例之一。
服务平台部署方案
本次部署旨在面向全校师生提供基于DeepSeek-R1 671B非量化版本的大模型服务。该服务不仅支持基础的自然语言处理任务,还具备多种高级功能,包括但不限于联网搜索、公式生成、代码生成等,以满足不同学科背景用户的需求。
为确保平台能够高效稳定地运行,系统设计了较高的并发处理能力与生成速度。具体而言,建设目标为支持同时请求数不低于100人的推理平台,且保证每秒生成的Token数量不低于600个。这一配置旨在满足大规模用户访问需求,同时保障实时性和用户体验。
平台架构设计
如图1所示,系统自底向上可以分为基础设施、推理平台、大模型服务三个部分。
图1 系统整体架构
基础设施层提供了平台运行所需的底层支持,系统依托于天津大学计算平台,平台提供了高性能的GPU计算资源,使用Kubernetes调度系统进行资源分配,从而提供开箱即用的高性能计算环境。这些基础设施确保了平台的稳定性和可扩展性,能够处理大量的并发请求和复杂的大模型推理任务。
推理平台建立在基础设施提供的算力基础上,是AI对话平台的核心。平台使用vLLM推理引擎提供多组大模型服务。推理接口网关作为推理平台与外部系统交互的入口,负责鉴权、接口状态监控、提示词优化和负载均衡等任务,确保推理服务的稳定性和效率。
AI模型知识库负责管理和调度AI模型的推理任务,包括知识库、联网搜索接口、任务编排和模型分配等功能。
大模型服务是用户与系统交互的直接界面,在对话方面,通过自主开发的系统界面提供Markdown和Mermaid显示、公式显示、流程图显示、代码语法着色等功能,使得对话更加直观和规范。此外,该平台还提供了接口管理,包括登录登出、权限控制、上下文管理和会话管理和联网搜索等功能,确保了用户交互的安全性和连贯性。
推理服务部署
平台构建了一个强大的计算集群,由15台服务器组成,每台服务器配备8块显存80GB的高性能显卡,实现卡间高速互联,提供卓越的计算性能与数据传输速率。为确保服务器之间的高效通信,集群采用了200Gb高速网络链接,极大地提升分布式计算任务中的数据交换效率,特别是在需要大量数据交互的深度学习训练场景下表现尤为突出。
软件环境方面,所有机器均安装了Ubuntu操作系统,能够兼容各类科学计算软件和工具。此外,为更好地管理和调度如此庞大的计算资源,平台集成了天津大学计算平台的服务,不仅能够提供强大的算力支持,还通过其内置的容器部署功能实现了计算环境的快速配置与切换,大大简化科研人员的操作流程,提高了资源利用效率。
在系统搭建工作完成后,团队使用了vLLM包含的Benchmark工具进行了系统吞吐量测试。测试使用了ShareGPT_V3_unfiltered_cleaned_split数据集,从数据集中随机取出30条文本内容,同时发送给一组三节点的推理模块。经过多次测试,在并发数为30的情况下,一组三节点的集群能够处理的总吞吐量在280token/s左右,每秒输出词元数为140个左右。测试结果表明,一组服务器可以支持30人同时流畅使用DeepSeek 671B模型进行单轮对话。对于多轮对话,由于上下文长度显著增加,性能可能略有下降。
大模型应用中台
大模型应用中台能够整合不同底层大模型的接口差异,实现各种内外部大模型的快速接入,并根据业务场景的数据安全要求选择使用外部模型或私有化模型。此外,大模型应用中台还具备智能知识库分析能力,通过结合向量数据库支持文本向量分段、大模型问答拆分、精准导入等多种知识录入方式,提高答案的召回率和准确性,适应多种场景需求如问答、阅读、生成等。同时,应用中台提供任务可视化编排功能,允许通过图形化界面轻松实现包含知识库搜索、AI对话、关键词提取、问题分类、API调用等模块的复杂工作流,扩展构建AI智能体的能力。为了实现多渠道快速接入,平台支持通过对话窗口、API等方式与各业务系统快速集成,为用户提供全面的知识解答。
图2是为学校设计的大模型应用中台流程图。用户在默认情况下可以直接调用DeepSeek,使用大模型自身的能力回答问题。如果用户选择使用智能模式,系统将调用中台的编排能力分析用户需求,进而使用不同工具进行更细致的加工处理。在智能模式中,系统使用DeepSeek 7B小模型,分析用户需求,根据用户问题将需求分为“联网搜索”“代码执行”和“直接使用大模型能力对话”三种。针对联网搜索,直接调用搜索接口,将接口返回值进行格式化处理后传入大模型进行分析和总结。对于代码执行需求,系统将用户代码抽取并传送至独立的沙箱进行代码调用,计算完成后返回结果给大模型,进而回复用户。
图2 大模型应用中台流程设计
大模型服务构建
系统对接了天津大学统一身份认证平台,校内用户无需注册即可直接使用大模型服务,使用JWT实现了权限控制和登入登出功能。系统基于CAS协议与天津大学统一身份认证平台进行交互,获取用户身份、学院等背景信息,作为大模型提示词输入到模型中台,为大模型回答问题提供必要的背景知识,帮助其更准确地回答出用户的问题,也使其回复的答案更加贴近用户身份。
借助大模型中台提供的推理和会话编排能力,后端使用Fast Api构建了一套接口,提供会话保存、上下文管理等功能。在收到用户请求后,中台将自动保存用户请求和大模型返回值,并在下一轮对话中将前6轮对话的内容填充至大模型的上下文,借助DeepSeek长上下文的特点,提供更准确的对话信息。用户权限和历史会话使用JSON格式保存在MongoDB中。
运维分析及服务优化升级
为提升平台的整体运行效率和服务质量,学校从多个维度开展了系统性能优化工作。通过负载均衡策略、断开链接策略以及小模型过滤机制的综合应用,平台在资源分配、稳定性保障及计算成本控制等方面取得了显著成效。
智能网关。为适应多组大模型共同提供服务,我校自主研发了一套智能网关系统,负责LLM请求的负载分配及健康监控。
其一,负载均衡策略。为提高系统的稳定性和响应速度,学校在智能网关层面引入了一种基于动态负载评估的优化策略。该策略通过实时收集各虚拟大语言模型(vLLM)节点的运行状态数据,包括但不限于硬件负载、当前用户请求数量、正在处理的用户请求数量以及正在等待的用户请求队列长度,对各节点的实际负载进行全面评估。当新的用户请求到达时,智能网关会根据已掌握的各项负载指标对所有节点进行排序,并选取负载最低的两个节点,将用户随机分配到其中一个节点上进行处理。这一策略不仅能够有效分散用户请求压力,避免单个节点过载,还能显著提升系统的整体吞吐能力和资源利用率。
此外,为了进一步优化负载均衡效果,系统还引入了历史负载数据分析机制。通过对过去一段时间内各节点的负载变化趋势进行建模和预测,智能网关能够在一定程度上提前调整资源分配策略,从而更好地应对突发流量高峰或局部负载不均的情况。
其二,断开链接策略。为确保系统的健康运行并防止个别异常会话对整个节点造成负面影响,天津大学在智能网关中设计并实施了一种断开链接策略。具体而言,智能网关会持续监控各节点的token生成情况。如果检测到某个用户会话长时间未能生成有效的token(例如超过预设的时间阈值),系统将主动断开该会话连接,并释放相关资源。这种机制可以有效避免因单个会话的异常行为(如死循环、超时或其他不可控因素)导致的资源浪费或节点阻塞问题,从而保障其他用户的正常访问体验。
同时,为了减少对用户体验的影响,系统会在断开会话前向用户发送提示信息,说明原因并建议重新提交请求。此外,针对频繁触发断开策略的用户或会话类型,系统还会自动记录相关日志,以便后续分析其潜在问题并优化处理逻辑。
输入护栏。为降低大模型推理过程中的计算成本并提升系统效率,引入一种基于小模型的用户问题预处理机制。在调用DeepSeek-R1 671B大模型之前,所有用户输入的问题首先会被传递给参数规模较小的DeepSeek-R1 7B模型进行初步判断和分类。DeepSeek-R1 7B模型通过对问题内容的快速分析,能够识别出无效问题(如无意义的字符输入或重复提问)和不合规问题(如涉及敏感话题或违反学校政策的内容)。对于这些不符合要求的问题,系统将直接跳过大模型推理阶段,并向用户返回固定格式的提示信息,从而节省大量计算资源。
此外,在联网搜索场景中,DeepSeek-R1 7B模型还承担了判断用户问题是否需要外部网络支持的任务。如果模型确定用户问题可以通过本地知识库或大模型自身能力解决,则直接进入下一阶段的处理流程;反之,若问题需要依赖外部网络资源(如实时新闻、学术数据库等),系统才会启动联网搜索模块。这种分层处理机制不仅提高了系统的响应速度,还显著降低了对外部网络资源的依赖性,增强了系统的鲁棒性和可扩展性。
输出约束与优化。通过明确规定大模型在回答时需遵循的规则和格式要求,可以有效提升回答的质量和可用性。学校使用提示词优化输出内容,主要设计包括规则约束和格式优化两方面。
在规则约束方面,首先明确AI的身份和法律遵循要求,能确保其回答符合当地法律法规,特别是数据隐私等敏感问题,避免出现法律风险。确认AI处理中英文问题的能力,同时坦诚知识截止日期后的信息局限性,能让用户对其能力范围有清晰认识,合理期待回答的准确性。要求提供全面且逻辑清晰的回答,并采用格式化输出,可使信息呈现更有条理、易读,面对模糊问题坦诚不确定性,体现诚实和专业。拒绝涉及非法、暴力、不适当内容的请求,维护道德和法律底线、保障用户安全及隐私。同时,将大模型服务主要应用于高等教育行业并确保内容严谨性,能使其在专业领域发挥更大价值。
在输出格式优化方面,遵循Markdown语法规则等格式要求,能让回答在系统中正确解析和展示,如数学公式准确呈现、引用规范、内部推理清晰等,提升用户体验和回答的专业性。
联网搜索。平台集成了联网搜索功能,用户可使用该功能搜索互联网上的内容,并使用大模型进行总结。联网搜索功能需要配置网络搜索引擎接口。学校研发了搜索引擎聚合接口服务,将部分公开的搜索结果和校内的内容平台搜索引擎聚合,提供标准的搜索结果。大模型总结搜索内容后,需要在前端将引用内容展示给用户,同样需要相关的提示词。
本次上线DeepSeek大模型服务,是天津大学迈向智能化教育的重要一步,但这也仅仅是一个起点。未来,学校将致力于将大模型服务与学校的教学、科研、管理等核心业务深度融合,打造更加智能、高效、个性化的教育生态系统。
基金项目:本文系2024年天津大学创新人才培养项目——基于大模型的研究生课程教学改革探索与实践(YCX2024034)阶段性研究成果。
来源:《中国教育网络》2025年2-3合刊
作者:赵越1、赵满坤2、张文彬1、于瑞国1(作者单位1为天津大学信息与网络中心;2为天津大学智能与计算学部)
责编:陈荣