AI 语言大模型关键技术
语言大模型技术主要包括模型预训练、适配微调、提示学习、知识增强和工具学习等核心领域。以下将详细讲解各项关键技术的原理与应用。
AI 语言大模型关键技术涵盖预训练、适配微调、提示学习、知识增强和工具学习五大核心领域。预训练涉及高效策略与架构优化;适配微调包括指令微调和参数高效微调如 LoRA;提示学习利用上下文激发模型能力;知识增强通过外部知识融合提升推理准确性;工具学习使模型能调用外部插件处理复杂任务。这些技术共同推动大模型向更通用、高效、可控的方向发展。

语言大模型技术主要包括模型预训练、适配微调、提示学习、知识增强和工具学习等核心领域。以下将详细讲解各项关键技术的原理与应用。
支撑语言大模型高效训练的技术主要包括高性能训练工具、高效预训练策略、高质量训练数据、高效的模型架构等。
其主要思路是采用不同的策略以更低成本实现对语言大模型的预训练。
OpenAI 在 GPT-4 训练中,使用 1000 倍至 10000 倍较少计算资源训练的小模型可靠地预测 GPT-4 某些性能,大幅降低了模型训练成本。

BERT 之后的 Transformer 架构在提高自然语言处理效率方面有两个重要优化方向:
旨在将多种自然语言处理任务(如分类、信息抽取、翻译、对话等)整合到一个统一的框架,然后在同一模型中执行多个任务,以实现更高效的自然语言处理。该方法可以充分利用大规模训练数据,从而提高了模型在多个任务上的性能和泛化性。这减少了开发和维护多个单独模型的复杂性以及资源消耗,提高模型的通用性。
统一任务序列建模有两种方式:
从 Transformer 模型架构本身在处理训练复杂度、编解码效率、训练稳定性、显存利用等方面进行优化。比如,Transformer 其并行处理机制是以低效推理为代价的,解码时每个步骤的复杂度为 O(N),Transformer 模型也是显存密集型模型,输入序列越长、占用的内存越多。
为此,微软设计了一种新的 Transformer 架构 RetNet,其采用线性化注意力 + 尺度保持(Retention)机制,在基本保持模型性能的基础上同时实现模型训练速度、推断速度和内存节约的大幅提升。
针对自注意力显存消耗大,斯坦福大学在 Transformer 中引入 FlashAttention,给出了一种具有 IO 感知,且兼具快速、内存高效的注意力算法,已经被各种主流大模型采用以扩展对超长文本输入的支持。
最近,模块化大模型架构引起广泛关注,其利用大模型的神经激活稀疏性,对稠密模型进行模块化划分,不同任务只经过部分模块计算实现训练和推理加速,典型工作包括 Google 的 Switch Transformers 和 Pathways 架构、清华大学的 MoEfication 架构、FastMoE 架构等。

语言大模型由于在大规模通用领域数据预训练通常缺乏对特定任务或领域的知识,因此需要适配微调。微调可以帮助模型更好地适应特定需求,如对敏感数据(如医疗记录)的处理,同时不暴露原始数据。此外,微调可以提高部署效率、减少计算资源需求。指令微调和参数高效学习是适配微调的关键技术。
是一种可以帮助语言大模型实现人类语言指令遵循的能力,在零样本设置中泛化到未见任务上的学习方法。
指令微调学习形式与多任务提示微调相似,但与提示微调让提示适应语言大模型并且让下游任务对齐预训练任务不同,其是让语言大模型对齐理解人类指令并按照指令要求完成任务,即在给定指令提示的情况下给出特定的回应,其中提示可以选择性包含一条解释任务的指令。指令微调研究涉及指令理解、指令数据获取和指令对齐等内容。
为了解决这一问题,研究者提出了'指令对齐',使语言大模型的输出更符合人类的预期。但这种对齐与原始预训练有所不同,更注重于有用性、诚实性和无害性。此外,指令对齐可能会降低语言大模型的某些通用能力,这被称为'Alignment Tax'。
为实现模型输出与对人类价值的对齐,InstructGPT 提出了一种基于人类反馈的微调方法,利用了强化学习技术,将人类反馈纳入模型微调过程。实际上,ChatGPT 也采用了与 InstructGPT 相似的技术,以确保产生高质量且无害的输出。指令对齐的广泛应用,适配微调从纯数据学习的传统微调范式开始逐步向人类学习范式的转变。
早期以 BERT 为代表的微调方法,是在大模型基座上增加一个任务适配层,然后进行全参微调。
但是这种方法存在两方面的问题:
解决以上问题的有效途径是参数高效学习,即通过仅微调少量参数实现大模型在下游任务上获得全参微调效果。
目前许多参数高效微调方法被提出,这些方法大致可分为 3 类:

参数高效微调通常具有微调参数规模小、增量式微调参数、即插即用等特点,这种技术也统一成技术框架 Delta Tuning。
一些围绕参数高效微调的开源工具也被研发,代表性包括 OpenPrompt、OpenDelta 等。由于不同任务的微调参数可以被重复利用,一些关于高效微调的仓库也被构建,如 AdapterHub、Delta Center 等。随着语言大模型的兴起,高效微调吸引了越来越多的关注,以开发一种更轻量级的下游任务适配方法。特别地,LoRA 已广泛应用于各种开源语言大模型(如 LLaMA)以实现参数高效微调。
通过大规模文本数据预训练之后的语言大模型具备了作为通用任务求解器的潜在能力,但这些能力在执行一些特定任务时可能不会显式地展示出来。在大模型输入中设计合适的语言指令提示有助于激发这些能力,该技术称为模型提示技术。代表性的提示技术有指令提示和思维链提示:
也称为提示学习。OpenAI 在 GPT-3 中首次提出上下文提示,并发现 GPT-3 在少样本提示下能够达到人类水平,证明在低资源场景下非常有效,引起广泛关注。
指令提示核心思想是避免强制语言大模型适应下游任务,而是通过提供'提示(Prompt)'来给数据嵌入额外的上下文以重新组织下游任务,使之看起来更像是在语言大模型预训练过程中解决的问题。
指令提示有三种形式:

推理的过程通常涉及多个推论步骤,通过多步推理允许产生可验证的输出,可以提高黑盒模型的可解释性。
思维链是一种提示技术,已被广泛用于激发语言大模型的多步推理能力,被鼓励语言大模型生成解决问题的中间推理链,类似于人类使用深思熟虑的过程来执行复杂的任务。
在思维链提示中,中间自然语言推理步骤的例子取代了少样本提示中的〈输入,输出〉对,形成了〈输入,思维链,输出〉三元组结构。思维链被认为是语言大模型的'涌现能力',通常只有模型参数规模增大到一定程度后,才具有采用思维链能力。
激活语言大模型的思维链能力方法,在提示中给出逐步的推理演示作为推理的条件,每个演示都包含一个问题和一个通向最终答案的推理链(图 2-7)。
知识运用和推理能力是衡量语言大模型智能水平的重要因素。美国 Allen AI 研究大模型的问答能力,发现 GPT-3 在处理具有预设立场(false premise)的简单性常识性问题时,如类似'太阳有几只眼睛?',GPT-3 仍然会给出'太阳两只眼睛'的荒谬回复。
有效的解决方法是在深度学习模型基础上融入各类型相关外部知识。根据大模型知识融合部位不同,知识融合方法从模型输入、神经架构、模型参数、输出等不同层面,大致分为以下 4 类,如图 2-8 所示:

语言大模型具备理解、推理和决策能力,可与外部工具互动。在特定领域任务中,如金融领域的证券交易和市场预测,语言大模型通常需要结合外部工具获取信息和技能才能处理。
整合外部工具与语言大模型可以发挥各自优势实现复杂任务的处理,其中外部工具可增强专业知识和可解释性,语言大模型提供语义理解和推理规划能力。
2021 年底,OpenAI 推出 WebGPT,利用 GPT-3 与网页浏览器和搜索引擎交互获取互联网信息在长文本问答上实现非常强的能力,展现了语言大模型利用工具解决复杂问题的巨大潜力。
该工作引起了学术界和产业界的广泛关注,产生了许多面向不同任务或场景需求的大模型调用工具的方法,如 Webshop,使用语言大模型替代人在购物平台上执行一系列操作、购买所需物品。
2023 年 3 月,OpenAI 发布 ChatGPT Plugins,实现 ChatGPT 调用各种外部插件的功能,支持浏览器实时信息获取、代码解释器、PDF 阅读等能力,截至 8 月已支持 480 个常用工具插件。
Meta 将这种通过非参数的外部模块扩展语言大模型能力的方法,统一称为增广语言模型(Augmented Language Models)。
清华大学在现有大模型工具使用方法基础上,提出了工具学习(Tool Learning)框架,指在让模型能够理解和使用各种工具完成任务的学习过程。

目前可交互的通用工具按用户接口大致可分为三类(图 2-9):物理交互的工具(如机器人、传感器等)、基于图形用户界面的工具(如浏览器、Office 办公软件等)、基于编程接口的工具(如数据库、知识图谱)等。
从学习目标的角度来看,现有工具学习方法主要可以分为两类:
语言大模型技术正处于快速发展阶段,上述五大关键技术共同构成了当前大模型能力的基石。预训练奠定了模型的基础认知能力,适配微调使其能够适应特定场景,提示学习激发了模型的潜在推理能力,知识增强弥补了模型内部知识的不足,而工具学习则赋予了模型与外部世界交互的能力。
未来,随着算力的提升和数据质量的优化,这些技术将进一步融合。例如,结合 RAG 的知识增强与工具学习将成为解决幻觉问题的关键路径。同时,参数高效微调技术的普及将降低大模型落地的门槛,使得更多垂直行业能够定制化部署专属模型。开发者应关注这些技术的演进,合理选择技术方案以构建更高效、可控的智能系统。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online