大语言模型技术综述
本文基于 2023 年 6 月中国人民大学与蒙特利尔大学联合发表的论文《A Survey of Large Language Models》,对大语言模型(LLM)的利用方式、评估体系、应用前景及未来挑战进行系统性梳理。重点探讨提示策略、推理增强、规划能力及多维度的能力评估方法。
一、大语言模型的利用
在预训练或自适应调优之后,使用 LLM 的主要方法是设计合适的提示策略来解决各种任务。典型的利用方式包括上下文学习(In-Context Learning, ICL)、思维链(Chain-of-Thought, CoT)以及基于规划的复杂任务处理。
1. 上下文学习 (ICL)
ICL 使用格式化的自然语言提示,包括任务描述和/或一些任务示例作为演示。其核心流程如下:
- 任务描述:明确需要完成的任务类型。
- 演示选择:从任务数据集中选择若干示例作为 Few-shot 演示。
- 模板组合:将任务描述与示例以特定顺序组合,形成自然语言提示。
- 测试实例:将待处理的测试实例附加到演示后作为输入,生成输出。
基于任务演示,LLM 可以识别和执行新任务,而无需显式梯度更新。这与指令微调(Instruction Tuning)密切相关,但指令微调需要对模型进行参数更新以适应特定任务分布,而 ICL 仅通过提示引导模型行为。
演示设计与机制
ICL 的关键在于演示设计,包括演示的选择、格式和次序。研究表明,模型规模越大,ICL 能力越显著。小规模语言模型若经过专门设计的持续预训练或微调,也能表现出强大的 ICL 能力。
在推理阶段,LLM 利用演示的方式主要有两种:
- 任务识别:识别当前输入属于何种任务类别。
- 任务学习:从演示中提取模式并泛化到新样本。
为了提高任务学习能力,元上下文学习建议包含多个相关任务,符号调优则通过语义不相关的标签迫使模型依赖演示而非先验知识。
![图:ICL 工作流程示意图]
2. 思维链 (CoT)
思维链是一种改进的提示策略,旨在提高 LLM 在复杂推理任务(如算术推理、常识推理和符号推理)上的表现。与 ICL 中简单的输入输出对不同,CoT 将中间推理步骤合并到提示中。
少样本 CoT
少样本 CoT 是 ICL 的特例,它将每个演示 ⟨输入,输出⟩ 增强为 ⟨输入,CoT,输出⟩。设计合适的 CoT 提示至关重要,使用多样化的推理路径可以有效提高性能。Auto-CoT 提出利用零样本-CoT 自动生成推理路径,消除人工标注成本。
此外,自洽性(Self-Consistency)作为一种新的解码策略,首先生成多条推理路径,然后对所有答案进行集成(如投票选出最一致的答案),大大提高了 CoT 推理的性能。
零样本 CoT
零样本 CoT 不包含人工注释的演示。它直接生成推理步骤,例如使用'一步一步思考'作为提示,随后得出最终答案。研究发现,当模型规模超过一定阈值时,这种策略能大幅提升性能,显示出明显的涌现能力。
3. 规划 (Planning)
对于数学推理和多步问答等复杂任务,单纯的 ICL 和 CoT 可能遇到困难。基于提示的规划将复杂任务分解为更小的子任务,并生成行动规划。
基于 LLM 的规划包含三个组件:
- 任务规划器:由 LLM 扮演,生成解决目标任务的整个规划(动作序列或可执行程序)。
- 执行器:负责执行规划中的动作(可以是另一个模型或机器人)。
- 环境:执行器工作的场所(如 LLM 本身或虚拟世界 Minecraft),提供反馈信号。
规划生成侧重于直接生成动作序列。在执行后,环境反馈可用于改进初始规划,形成'规划 - 执行 - 改进'的循环。现有工作主要采用推理、回溯和记忆三种方法来优化规划。
![图:基于 LLM 的规划架构]
二、大语言模型的评估
为了检验 LLM 的有效性和优越性,大量任务和基准被提出来进行实证能力评估和分析。
1. 基本能力评估
LLM 在语言生成和理解方面包括三种基本能力评估:语言生成、知识运用和复杂推理。


