大语言模型技术综述：利用、评估与应用方向

综述由AI生成综述了大语言模型的核心技术方向，涵盖利用、评估与应用。在利用方面，详细阐述了上下文学习、思维链及规划策略的机制与差异，强调模型规模与演示设计对性能的影响。评估部分区分了基本能力（生成、知识、推理）与高级能力（人类对齐、具身智能、工具操纵），并列举了主流基准测试。文章最后总结了提示工程的设计原则及当前面临的安全、理论与生态挑战，为理解 LLM 技术现状提供参考。

ServerBase发布于 2025/2/7更新于 2026/6/227 浏览

大语言模型技术综述

本文基于 2023 年 6 月中国人民大学与蒙特利尔大学联合发表的论文《A Survey of Large Language Models》，对大语言模型（LLM）的利用方式、评估体系、应用前景及未来挑战进行系统性梳理。重点探讨提示策略、推理增强、规划能力及多维度的能力评估方法。

一、大语言模型的利用

在预训练或自适应调优之后，使用 LLM 的主要方法是设计合适的提示策略来解决各种任务。典型的利用方式包括上下文学习（In-Context Learning, ICL）、思维链（Chain-of-Thought, CoT）以及基于规划的复杂任务处理。

1. 上下文学习 (ICL)

ICL 使用格式化的自然语言提示，包括任务描述和/或一些任务示例作为演示。其核心流程如下：

任务描述：明确需要完成的任务类型。
演示选择：从任务数据集中选择若干示例作为 Few-shot 演示。
模板组合：将任务描述与示例以特定顺序组合，形成自然语言提示。
测试实例：将待处理的测试实例附加到演示后作为输入，生成输出。

基于任务演示，LLM 可以识别和执行新任务，而无需显式梯度更新。这与指令微调（Instruction Tuning）密切相关，但指令微调需要对模型进行参数更新以适应特定任务分布，而 ICL 仅通过提示引导模型行为。

演示设计与机制

ICL 的关键在于演示设计，包括演示的选择、格式和次序。研究表明，模型规模越大，ICL 能力越显著。小规模语言模型若经过专门设计的持续预训练或微调，也能表现出强大的 ICL 能力。

在推理阶段，LLM 利用演示的方式主要有两种：

任务识别：识别当前输入属于何种任务类别。
任务学习：从演示中提取模式并泛化到新样本。

为了提高任务学习能力，元上下文学习建议包含多个相关任务，符号调优则通过语义不相关的标签迫使模型依赖演示而非先验知识。

![图：ICL 工作流程示意图]

2. 思维链 (CoT)

思维链是一种改进的提示策略，旨在提高 LLM 在复杂推理任务（如算术推理、常识推理和符号推理）上的表现。与 ICL 中简单的输入输出对不同，CoT 将中间推理步骤合并到提示中。

少样本 CoT

少样本 CoT 是 ICL 的特例，它将每个演示 ⟨输入，输出⟩ 增强为 ⟨输入，CoT，输出⟩。设计合适的 CoT 提示至关重要，使用多样化的推理路径可以有效提高性能。Auto-CoT 提出利用零样本-CoT 自动生成推理路径，消除人工标注成本。

此外，自洽性（Self-Consistency）作为一种新的解码策略，首先生成多条推理路径，然后对所有答案进行集成（如投票选出最一致的答案），大大提高了 CoT 推理的性能。

零样本 CoT

零样本 CoT 不包含人工注释的演示。它直接生成推理步骤，例如使用'一步一步思考'作为提示，随后得出最终答案。研究发现，当模型规模超过一定阈值时，这种策略能大幅提升性能，显示出明显的涌现能力。

3. 规划 (Planning)

对于数学推理和多步问答等复杂任务，单纯的 ICL 和 CoT 可能遇到困难。基于提示的规划将复杂任务分解为更小的子任务，并生成行动规划。

基于 LLM 的规划包含三个组件：

任务规划器：由 LLM 扮演，生成解决目标任务的整个规划（动作序列或可执行程序）。
执行器：负责执行规划中的动作（可以是另一个模型或机器人）。
环境：执行器工作的场所（如 LLM 本身或虚拟世界 Minecraft），提供反馈信号。

规划生成侧重于直接生成动作序列。在执行后，环境反馈可用于改进初始规划，形成'规划 - 执行 - 改进'的循环。现有工作主要采用推理、回溯和记忆三种方法来优化规划。

![图：基于 LLM 的规划架构]

二、大语言模型的评估

为了检验 LLM 的有效性和优越性，大量任务和基准被提出来进行实证能力评估和分析。

1. 基本能力评估

LLM 在语言生成和理解方面包括三种基本能力评估：语言生成、知识运用和复杂推理。

大语言模型技术综述：利用、评估与应用方向

大语言模型技术综述

一、大语言模型的利用

1. 上下文学习 (ICL)

演示设计与机制

2. 思维链 (CoT)

少样本 CoT

零样本 CoT

3. 规划 (Planning)

二、大语言模型的评估

1. 基本能力评估

更多推荐文章

相关免费在线工具

2. 高级能力评估

3. 基准与实证评估

三、提示设计指导

设计原则

四、应用与未来挑战

更多推荐文章

相关免费在线工具

大语言模型技术综述：利用、评估与应用方向

大语言模型技术综述

一、大语言模型的利用

1. 上下文学习 (ICL)

演示设计与机制

2. 思维链 (CoT)

少样本 CoT

零样本 CoT

3. 规划 (Planning)

二、大语言模型的评估

1. 基本能力评估

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 高级能力评估

3. 基准与实证评估

三、提示设计指导

设计原则

四、应用与未来挑战

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具