大语言模型的兴起与学术界响应手册的产生
2020年秋季,GPT-3一经面世便席卷互联网,引起了广泛关注。这款拥有超过1750亿参数,每秒运行成本达到100万美元的大型语言模型(Large Language Models,LLMs)开启了自然语言处理(NLP)领域的新纪元。LLMs拥有巨大的参数量,更优秀的迁移学习能力、泛化能力和表现能力,可以捕获更复杂的语言模式和语义信息,进而处理大规模的数据,具有划时代的意义。
2023年8月15日,《生成式人工智能服务管理暂行办法》正式实施。百度旗下“文心一言”、阿里巴巴旗下“通义千问”等多家大模型宣布率先通过《生成式人工智能服务管理暂行办法》备案,正式上线面向公众提供服务。
除了企业之外,高等院校也加入了这股科技革命浪潮,纷纷加入了部署大语言模型的行列之中。这些大型模型不仅在自然语言处理领域有重要应用,还为各个领域的学术研究和实践提供了有力工具:北京交通大学与中国计算机学会智慧交通分会以及足智多模公司合作,发布了国内首个综合交通领域的大型模型TransGPT·致远,为智能交通领域的研究和应用提供了有力支持;北京大学推出了ChatLaw大模型,聚焦于法学,致力于为大众提供轻便普惠的法律服务;清华大学知识工程和数据挖掘小组发布了“ChatGLM-6B”大模型,并对其60亿参数的轻量版本进行了开源;复旦大学的“MOSS”大模型也在研究领域取得了突出成就。
很多大学也为自己的师生部署了大语言模型,来帮助师生提高科研和教学的效率。如东南大学信息中心推出了ChatSEU,结合学校需求提供更加定制化的对话服务;北京信息科技大学推出了“校园智能助理(BistuCopilot)”系统,在北京市属高校中率先应用大语言模型技术。
在部署大语言模型过程中,从数据隐私保护问题到模型安全性,从知识产权保护问题到技术滥用问题,高校面临诸多安全挑战。高校亟需采取严格的安全措施,规避部署过程中产生的各种风险,确保技术的安全和合规使用。
OWASP(Open Web Application Security Project,开放式Web应用程序安全项目)是一个致力于提高Web应用程序安全性的国际性非盈利组织,提供了一系列开放式的工具、文档、指南和标准,帮助个人和组织改善其Web应用程序的安全性。2024年2月19日,OWASP发布了《LLM AI Cybersecurity & Governance Checklist》1.0版本(大型语言模型网络安全和治理清单),为使用大型语言模型的组织提供网络安全和治理方面的指导。这份治理清单不仅为高校提供了一个全面的安全和治理框架,还涵盖了从风险评估、合规性指导到技术安全最佳实践的各个方面。通过遵循这份清单,高校可以建立起一套有效的治理结构,确保大语言模型的部署符合法律法规要求,同时保护敏感数据不受侵害。
OWASP大语言模型安全与监管手册框架
《LLM AI Cybersecurity & Governance Checklist》是由OWASP Top 10 for LLM Applications团队精心编制的一份指南,旨在为使用大型语言模型(LLM)的组织提供网络安全和治理方面的实用建议。
手册的开篇是概述部分,介绍了LLM技术的背景和发展,明确了手册的目标受众,说明了清单的目的和局限性,讨论了LLM特有的安全和隐私问题,以及LLM可能带来的风险类型,并提供了关于如何制定LLM应用策略的指导。
详细清单部分列出了一系列具体的检查点,涵盖从对抗性风险到测试、评估、验证和确认(Testing,Evaluation,Verification,and Validation,TEVV),再到模型卡(提供有关人工智能系统设计、功能和约束的标准化文档)和风险卡(公开解决潜在的负面后果)等关键领域。这些检查点为组织提供了一个实用的工具,帮助它们评估和改进LLM的安全和治理措施。
资源部分提供了OWASP和其他组织的资源链接,以便读者可以进一步探索和应用。这些资源为组织提供了额外的支持和信息,帮助它们在LLM领域保持领先。
整体而言,这份手册为组织提供了一个结构化的框架,帮助它们理解和实施LLM的安全和治理措施,确保在利用这一新兴技术的同时,能够有效地管理和缓解相关风险。后文将主要介绍安全风险、部署方法、检查清单这三个方面。
大语言模型面临的安全风险
大语言模型在处理自然语言时,需要处理大量的文本数据,这些数据中可能包含恶意的代码、指令或信息。同时,由于LLM的预测生成能力,黑客可能利用其生成有害的内容,如虚假信息、恶意代码等。精心设计的对抗性提示可能引发LLM产生有害响应。即使没有遭受对抗性攻击,当前的LLM也可能生成不真实、有害、有偏见甚至非法的内容。这些不良内容可能被滥用,产生不良的社会影响。本文主要介绍以下四个方面的风险:
1.输出虚假信息
LLMs可能输出虚假、误导、无意义或质量差的信息,由此产生的危害加剧了社会对共享信息的不信任。当错误信息发生在敏感领域,如医学或法律,可能会造成更加严重的后果。
LLMs产生错误信息的潜在机制在一定程度上取决于它们的基本结构。LLMs被训练来预测,但并不能确保言论的正确与可靠性。文本可能包括事实上不正确的陈述,如过时的信息、虚构作品和故意的虚假信息。而且,即使训练数据只包括正确的陈述,也不能保证错误信息不出现,因为LLMs不会学习确定话语真实性的模式。一个声明是否正确可能取决于空间、时间或话语主体等背景。这样的背景通常没有被捕获在训练数据中,因此不能被在该数据上训练的LLM学习。这可能会对LLMs检测错误信息的能力造成理论上的限制:缺乏语言“基础”的LLMs可能无法确定话语的真实性,而这本质上取决于话语背景。
2.恶意使用
恶意使用的风险源于人类故意使用LLM造成伤害,随着LLMs的普及,恶意使用风险预计将激增。LLMs辅助的内容生成可以提供一种低成本的大规模制造虚假信息的方式。例如,LLMs可以通过生成数百个文本样本来降低虚假信息活动的成本,然后由人类从中进行选择。虚假信息可能被用来误导公众,人为拾高股价或在特定话题上塑造公众舆论;可能被用来制造虚假的“多数意见”,用合成文本淹没网站。大型LLMs可用于生成任意主题的合成内容,这些内容更难检测,也无法与人工编写的假新闻区分开来。
此外,LLMs还可能协助生成威胁网络安全的代码,降低开发多态恶意软件的成本,改变其特征以逃避检测,以及制造新的网络安全威胁,为欺诈和有针对性的操作提供便利。一种潜在的担忧是LLMs可能被用来提升犯罪的有效性。LLMs可以根据个人过去的语音数据进行微调,通过模仿个人语音,使电子邮件诈骗更加有效。LLM也可能被用于生成欺骗性的作品,例如在考试中作弊。
3.隐私泄露
LLMs在信息表达与传播时,可能会对私人或敏感信息造成伤害。例如,LLMs在训练数据中存在私人数据或敏感信息,LLMs可能会“记住”这些数据或者基于这些数据做出进一步推断,导致泄露商业秘密、披露健康诊断、泄露私人数据,从而导致信息危害。实践表明,只要LLMs可以对输入的人的性别、宗教信仰等特征进行准确推断,它们就可以在个人不知情或不同意的情况下,创建个人的详细档案。尽管存在严重的伦理问题,但利用语言处理工具和大型公共数据集来推断受保护的特征和其他个人特征已成为当前活跃的研究领域。例如,推特已经在分析语言风格,从而预测个体的政治言论、年龄和健康数据等,并生成人物画像。甚至有一些人认为,在不久的将来,算法可以在此类任务中实现高精度的推断。
4.产生歧视、负面言论
人工智能系统是在大量数据集上训练的,当训练数据是从不平等的现状背景下收集时,更反映了不公正的社会观念,造成严重的歧视,边缘化弱势人群或煽动仇恨或暴力。这些数据集可能会受到历史偏见的影响,包括某些变量和歧视之间的间接相关性(例如印度教的种姓制度,邮政编码是历史上受歧视对待的种族社区的地理标识符),而人工智能的机械客观性可能会通过“技术清洗”,在某种程度上强化偏见,甚至使其永久存在。
仇恨言论和冒犯性语言在网络上很常见。LLMs也可能会产生包括亵渎、身份攻击、侮辱、威胁、煽动暴力的语言。研究表明,即使是看似无害的提示,大型LLMs也可能会转化为攻击性语言。
排除性规范。在语言模型中,对于现存的社会规范与分类进行编码,需要将分类依据精准定义。例如,将“家庭”一词定义为有血亲子女的已婚父母,则否认了不适用这些标准的家庭的存在,例如单亲家庭等。如果LLMs将那些不符合标准的人归入不合适的类别,则可能构成分配伤害,并通过该技术锁定了这种不合理的分类。实践表明,LLMs在几种基于机器学习的语言技术中,针对不同社会群体的模型会体现出不同的性能。LLMs通常用几种语言进行训练,对于使用群体众多的语言,例如广泛使用的英语,比其他语种,例如爪哇语,有更多的训练数据,所以LLMs在英文环境下表现的性能更好。因此,提高LLMs在不同语种下的表现,包括在训练语料库中更好地训练不同的语种,需要专门整理此类训练数据,使受众较少的语言的书面文本记录被准确地数字化,创建良好的训练数据集。
安全部署大语言模型的策略
1.安全部署大语言模型的步骤
需求分析:组织需要确定业务需求和目标,并了解大语言模型将如何支持这些需求。同时评估大语言模型所需的功能和性能指标。
选择合适的大语言模型:根据组织的需求选择合适的预训练模型,如GPT-3、BERT或其他开源或商业的模型,可以从模型的大小、复杂性和适用性三个方面考虑。
数据准备:组织收集和准备适合特定任务的数据集,并对数据进行清洗、标注和预处理来提高模型的性能。
环境配置:组织需设置必要的硬件和软件环境,如GPU资源、操作系统和依赖库等;还需要配置模型所需的基础设施,如云服务或本地服务器。
对大语言模型的训练和微调:操作者使用特定任务的数据对预训练模型进行微调,以适应特定的业务场景。操作者需监控训练过程,调整超参数以优化性能。
集成:操作者将训练好的模型集成到应用程序或服务中,同时开发API接口,使其他系统能够访问和使用大语言模型。
测试和验证:操作者对集成的大语言模型进行彻底的测试,确保其性能和安全需求,并进行用户验收测试,确保模型输出符合预期。
部署:操作者将模型部署到生产环境中,并实施持续监控和日志记录,以便于问题诊断和性能跟踪。
维护和更新:操作者定期用新数据和改进的算法更新模型,并监控模型性能,根据反馈进行调整。
安全和合规:组织需确保大语言模型的部署符合相关的数据保护法规和政策,实施适当的安全措施,如访问控制和数据加密。
用户培训和支持:组织需对用户进行培训,确保用户了解如何正确使用大语言模型,为用户提供文档,帮助他们解决使用过程中的问题。
2.大语言模型的安全部署策略
公共API策略:该策略是通过直接从供应商处获取API来利用模型,这种方法允许快速集成和实验,无需从头开始构建模型。应用该策略的模型包括OpenAI的Falcon、Llama,以及Amazon Sage Maker和Salesforce的Einstein GPT。
授权模型策略:授权大语言模型,然后在专有数据上进行微调以适应特定用例,这种方法加速了时间线,相比于完全自定义模型,可以更快地进行实验,例如Amazon Bedrock和LegalAI。
预训练模型策略:这种方法从一般基础开始,使用已经证明的模型,然后在用户提供的数据上进一步微调。该策略提供了更多的控制和定制化,但需要较大的投资,如Llama2和GitHub的Copilot。
微调模型策略:该策略从验证过的模型开始,然后在用户提供的数据上进行进一步微调。该策略允许在预训练模型的基础上进行超越微调的定制化,如ChatGPT和Amazon CodeWhisperer。
定制模型策略:该方法从头开始构建针对特定用例量身定制的架构。该策略尽管需要最大的投资,但提供了最大程度的定制化。这种方法允许最大程度的控制以及集成内部工具和工作流程。
每种部署类型都涉及威胁建模滥用案例,以识别即时威胁,并确保模型的使用符合安全和业务需求。选择哪种部署策略取决于组织的具体需求、资源和安全考虑。
检查清单
检查清单包含了一系列关键点,旨在帮助组织评估和加强使用大语言模型时的安全和治理措施。
1.检查清单要点及其简要说明
对抗性风险:审查竞争对手在AI领域的投资。调查当前控制措施对GenAI(生成式人工智能)增强攻击的防御能力。组织应更新事件响应计划以应对GenAI增强攻击。
威胁建模:识别攻击者可能利用大语言模型加速的攻击。评估GenAI对业务客户的潜在攻击。确保能够检测对大语言模型有害的输入。
AI资产清单:编目现有的AI服务、工具和所有者。将AI组件包含在软件材料清单中。编目AI数据源并确定数据的敏感性。
AI安全和隐私培训:管理者应及时与员工沟通,了解并解决对大语言模型倡议的担忧。建立开放透明的沟通文化,组织内部人员学习AI的使用。
建立业务案例:确定AI解决方案的业务价值,平衡风险和收益。
治理:建立组织的AIRACI图表(责任、问责、咨询和通知),将其文档化并分配各个部门的AI风险评估和治理责任。
法律:保证产品在开发流程中的明确性,在考虑GenAI的前提下审查和更新现有的条款和条件。
监管:确定特定地区的AI合规要求。审查AI工具在员工招聘或管理中的使用情况。
使用或实施大语言模型的解决方案:对LLM组件和架构的信任边界进行威胁建模。
测试、评估、验证:建立AI模型生命周期内的持续TEVV过程。
模型卡和风险卡:审查模型卡和风险卡,以提高大语言模型的透明度和问责性。
大语言模型的优化:使用检索增强生成技术(RAG)来优化和增强大语言模型的能力,特别是针对特定领域的信息检索。
AI红队测试:将红队测试作为AI模型和应用程序的标准实践。
2.大语言模型的优化
在高校部署大模型时,基本都会针对模型进行本地优化处理,因此本文详细阐述检查清单的第12点——大语言模型的优化。大语言模型优化是指使用检索增强生成技术来优化大型语言模型。下面是具体的实施步骤。
数据源准备:选择或构建与业务领域相关的数据源,这些数据源可以是数据库、知识库或其他信息存储系统。
检索系统搭建:开发或集成一个检索系统,使其能够从数据源中快速检索出与输入查询最相关的信息。
模型训练:使用检索系统的结果作为额外的上下文信息,训练或微调大语言模型,使其能够利用检索到的信息进行更准确的生成任务。
性能评估:评估优化后的模型在特定任务上的性能,确保其达到预期的效果。
迭代优化:根据模型的表现和反馈,不断调整检索策略和模型参数,以进一步提高性能。
3.具体的应用场景
问答系统:在问答系统中,RAG可以帮助模型检索到准确的事实信息,从而提供更准确的答案。
内容推荐:在内容推荐系统中,RAG可以增强模型对用户兴趣的理解,从而推荐更相关的内容。
自然语言生成:在自然语言生成任务中,RAG可以提供更丰富的背景信息,帮助模型生成更连贯、更详细的文本。
这些检查点旨在帮助组织全面理解和应对大语言模型应用可能带来的安全和治理挑战。每个检查点都提供了具体的行动项和建议,以帮助组织评估和加强其在大语言模型应用方面的安全性和合规性。
来源:《中国教育网络》2024年6月刊
作者:葛明仪、吴妍青、梅怡云(东南大学网络空间安全学院)
责编:项阳