2023年3月15日,OpenAI发布了GPT-4大型多模态模型。伴随GPT-4的问世,生成式人工智能这一新兴技术迅速推广与普及。在高等教育领域,生成式人工智能为教学辅助、学术研究、科研探索、办公管理等开辟了新途径,拓展了新思路,提供了全新的工具和方式。今年两会期间,政府工作报告中多次提及人工智能,多位全国人大代表、政协委员建议加强普及人工智能素养教育,鼓励产学研紧密结合人工智能不断突破创新。本文总结了在高校落地基于GPT-4模型的生成式人工智能应用服务中遇到的困难,通过大量的调研、分析与探索配合合理的应用架构设计完成人工智能平台的落地,以期对其他高校或科研机构相关部门提供一些借鉴和参考。
分析GPT-4应用服务落地难点
一是OpenAI的区域限制问题。OpenAI作为GPT-4 的开发者和提供者,其政策和服务的区域限制直接影响到技术的普及和应用。GPT-4作为当前人工智能领域内最为先进的技术之一,其强大的文本生成和理解能力是高校AI落地服务的宝贵资源。无法直接访问GPT-4服务意味着高校教学、科研、办公人员在开展相关工作时失去了直接接触、测试和验证该技术的机会,也可能导致效果不尽如人意。同时,高校作为人才培养的重要基地,GPT-4等前沿技术的不可及直接影响了AI领域教育的质量。学生和教师无法通过实践操作来深入理解该技术的工作原理及应用场景,限制了学生创新能力和实践技能的培养,进而影响了高校在AI领域人才培养的竞争力。
二是数据隐私与安全问题。如今,数据安全和隐私保护已成为重要的法律议题,特别是在教育和高科技领域,涉及大量敏感数据的处理和使用。微软Azure云的OpenAI服务部署于境外,在使用Azure 的OpenAI服务校内部署落地使用的生成式人工智能服务时,需要严格遵守国内相关法律法规,强调师生负责任地使用,加强数据保护意识。
三是如何推动技术普及与用户使用。近年来,AI技术爆发式增长,但受限于多个方面,除了目前高校并未开设人工智能如何使用的通用课程外,AI教育的普及还需要大量的初期投资,如教师资源、设备资源、工具资源等,并且需要持续地更新和投入。AI是一个高度专业化的领域, 需要非常专业的教育人才,教育内容需要根据最新的技术发展不断更新,否则会导致学生学到的知识已不符合市场的最新需求。
四是跨境使用微软Azure云的OpenAI服务如何保障可靠性。微软Azure云的OpenAI服务虽然是提供GPT-4模型服务的渠道之一,但其资源分布于全球,不同地区的网络延迟、资源配给、业务高峰期、模型分布都不一致。GPT-4模型由于本身参数较多,导致响应生成速度低于其他大模型,需要从多个维度评估如何合理地分配资源,否则会造成业务访问的阻塞、网络异常、服务不可用,降低用户体验。同时需要考虑学校经费有限,在充分评估实际使用需求并测算后制定使用配额以保障合理地使用。
五是计费复杂且与传统计费方式不同。AI应用服务的计费区别于传统服务计费,不是按照使用时长或者调用次数进行计算,而是通过输入输出的tokens、图片大小 (识图功能)、图片生成张数及参数 (生图功能)等更加细分的维度进行计算。不同功能、模型、厂商计算的价格和方式均不相同,计费标准和方式呈现多样性。 输入和流式输出等同时需要计费,需要在保证应用响应速度及用户体验的前提下完成准确的用量和计费统计。并且AI技术的服务采用动态定价策略,根据市场需求、计算资源供应、操作成本等因素调整价格,因此本地应用的计费需要根据厂商的价格策略同步更新。
上海科技大学已在应用平台中开发了灵活的计价配置和计费功能,并为用户预设了配额,实现AI资源的合理使用。学校通过配额测算可以提前申请所需经费,根据评估月度使用情况定期充值以满足基本需求,并与AI服务提供商沟通开启超额使用功能,确保在业务需求激增时仍能正常运行,从而实现了AI服务的全成本核算。
设计AI应用落地方案
上海科技大学积极探索前沿技术,紧跟科技发展,致力于为学校的人才培养、科学研究、学科建设和行政管理提供优质的技术支持与服务保障。GPT-4问世后,AI技术突飞猛进,在各个领域不断突破创新,高校作为高精尖技术研究与人才培养的前沿阵地更应参与其中。上海科技大学经过深入调研、精心筹划,初步探索出一套基于GPT-4的高校AI应用落地方案。
首先,充分调研评估,落地GPT-4基座。在项目启动之初,先对接入GPT-4的可行性进行了充分的调研与评估。在对国内外顶尖高校(如哈佛、麻省理工、香港大学、北京大学、复旦大学等) 使用AI的情况及各个AI大模型的能力、收费、访问方式、政策进行多维度评估后,上海科技大学采用了微软Azure OpenAI提供的GPT-4模型作为高校落地AI 应用的后端基座。该模型在保证AI性能的同时无需做任何网络调整就可以在中国地区直接访问。
其次,研究法律法规,编写AI指南。参考国家相关法律法规《网络安全法》《数据安全法》《个人信息保护法》《数据出境安全评估办法》《生成式人工智能服务管理暂行办法》等,根据学校实际情况制定了《上海科技大学生成式人工智能使用指南》,对 “负责任使用” “数据安全”“学术诚信”等几个部分进行了约束与解释,供全校师生参照执行。
最后,结合实际应用,开展AI素养培训。越来越多的工作和学习中会使用到AI工具,但绝大部分师生并不具有AI相关专业领域背景和使用的经验,需要形成教育服务工作的闭环,让师生不仅拥有先进的AI服务资源,还能够熟练且高效地充分利用这些工具。学校构建了一套全面的培训体系内容,涵盖使用指南解读、安全应对策略、教学、科研、行政管理等多种场景下AI工具的应用实操。培训的开展,降低了AI工具的使用门槛,大幅节省了寻找合适AI工具的时间成本,让师生公平地接触和体验AI带来的便捷和效率的提升。
自主构建GenAI系统
上海科技大学基于微软Azure云的OpenAI服务引入GPT-3.5、GPT-4、GPT-4 Turbo、Dall-E 3等大模型,自主开发了GenAI平台,为全校师生提供生成式人工智能服务。平台采用前后端分离平台架构,通过将前端用户界面与后端业务逻辑分离,实现独立开发、部署和扩展。服务包含多个应用,能够理解和生成人类自然语言,可以用于问答、撰写、总结、翻译、画图等多种任务,如多模型可选的GenAI Web Chat智能对话应用,基于DALL-E 3的Text-To-Image应用,可接入多模型以API形式交付用户使用并计费管控的API中心。GenAI的整体业务架构如图1所示。
图1 GenAI业务架构
GenAI系统接入学校统一身份认证和主数据进行用户、组织关系以及权限管理,接入统一日志平台进行日志保存、检索与分析。Azure OpenAI服务分布于全球各个地区,为解决跨海传输网络不稳定可能造成的请求失败以及Azure OpenAI服务每个地区用量的限制问题,带给用户更好的使用体验,GenAI平台在学校后端部署了智能负载均衡。智能负载均衡增加了应用程序的弹性和返回错误处理逻辑,并考虑Azure OpenAI服务限制,为GenAI平台的应用提供了一个整合的API端点。API端点可将应用请求智能负载到Azure OpenAI服务各个地区的资源。同时,智能负载均衡也可配置资源优先级,设置区域权重,定制化访问策略,根据地区网络延迟及后端资源配置3个后端区域。同一权重区域内的后端进行轮询访问,高权重的区域不可访问或并发用量触发限制时,智能负载均衡会将请求无缝转至下一级权重区域 (如图2所示)。
图2 智能负载均衡的逻辑
GenAI系统提供高效且完备的计费记账功能。GenAI根据使用的模型以及所消耗的Tokens计算实现配额管控,这种配额管理不仅有助于避免某单个用户占用过多的计算资源,进而影响到其他用户的体验,而且有助于在资源有限的情况下,公平地分配计算能力。GenAI提供详尽的账单和使用情况,会详细列出消耗的Tokens数量、调用的模型种类、模型Tokens的单价和统计查询等。后端可根据整体配置默认配额定时重置,也可根据特殊业务需求为个人定制配额。
Tokens计算采用开源TikToken模块在输入和输出返回时进行Tokens的计算。为保证业务响应速度,接口返回的流式输出在全部结束后进行旁路计算并纳入计费账单(如图3所示)。
图3 GenAI计费账单逻辑图
除了通用的应用外, 为结合业务定制的个性化需求,GenAI系统可以设置本地的敏感词库进行安全过滤。鉴于学校师生对多样化大语言模型及私有化及本地部署的需求,以GenAI系统为依托,开发了可以接入多模型并直接提供API服务的API中心。本系统支持与多种大型模型如GPT-4等的接口对接并整合统一管理,配置多endpoint节点实现负载均衡,设置各模型计费规则,可以直接接入GenAI文本对话等应用,也可以生成API Key以API方式交付用户使用。API Key可以关联到统一身份认证对接的用户账号进行配额、计费管理。用户通过申请到的API Key可以接入各应用场景根据自身需求进行使用,如科学研究 (图像识别、语义识别、模型训练和微调等)、应用开发 (Agent智能体、智能知识库、AI内容生成等)以及教学辅助 (如知识图谱、教学助手、作业与试题生成等)。
GenAI系统上线至今已融入全校师生的教学、科研、办公中,例如课程设计、问题解答、通知编写、论文总结、文字润色、中英翻译等。在科研中更是一柄利器,如MouseGPT项目。该项目集成了自动化小鼠行为分类、无监督行为聚类、基于文字的行为检索、抑郁行为分析、新行为的发现、异常行为检测及药物对行为的影响等功能,研发动物行为学分析的工具。
目前,随着人工智能技术的迅速发展,GPT-4等大型多模态模型为高等教育领域带来了前所未有的机遇和挑战。在总结高校落地实践和应对挑战的过程中,我们看到技术、法律和教育系统需要更深入的结合和创新,才能应对这些新兴问题。展望未来,高校应继续深化与AI技术提供商的合作,加强AI素养和伦理教育,确保AI技术的负责任使用,并在实际操作中提高技术的透明度和普及程度。同时,需要加大对AI教育和研究的投资,不仅可以提升教育质量,还能推动科学研究和技术创新,加强人才培养。高校需要与政府、行业以及全球合作伙伴更紧密地合作,共同促进生成式人工智能技术的健康发展和广泛应用,为人类社会进步贡献力量。
来源:《中国教育网络》2024年10月刊
作者:孙颖彬、孙小影、张迎冬、孙思思(上海科技大学图书信息中心)
责编:陈永杰