提示工程 39 种方法与应用全解析

综述由AI生成总结了提示工程的 39 种方法，涵盖数学问题解决、逻辑推理、常识推理等 29 个自然语言处理任务。通过对比基础提示、思维链、自洽性等多种技术在不同数据集上的性能，分析了零样本与少样本设置下的差异，并指出了各任务的最佳实践策略。文章详细阐述了从基础提示到复杂推理链、程序辅助及验证机制等各类技术的原理与应用场景。

忘忧发布于 2025/2/7更新于 2026/6/822 浏览

大型语言模型（LLMs）在许多不同的自然语言处理（NLP）任务上表现出了显著的性能。提示工程在提升 LLMs 已有能力方面发挥着关键作用，使其在各种 NLP 任务上取得了显著的性能提升。提示工程需要编写自然语言指令，即提示，以结构化的方式从 LLMs 中提取知识。

与以往的最先进（SoTA）模型不同，提示工程不需要根据给定的 NLP 任务进行广泛的参数重新训练或微调，而是仅依赖于 LLMs 的内嵌知识。

此外，LLMs 的爱好者可以通过基本的自然语言对话交换或提示工程，智能地提取 LLMs 的知识，使得越来越多的人即使没有深厚的数学机器学习背景，也能与 LLMs 进行实验。随着提示工程在过去两年中越来越受欢迎，研究人员提出了许多围绕设计提示以提高从 LLMs 中提取信息准确性的工程技术。

在本文中，我们总结了不同的提示技术，并将它们根据不同的 NLP 任务进行分类。我们进一步详细突出了这些提示策略在各种数据集上的性能，讨论了相应的 LLMs 的使用情况，展示了分类图，并讨论了特定数据集的可能 SoTA。总的来说，我们阅读并展示了 44 篇研究论文的调查，其中讨论了 29 个不同 NLP 任务上的 39 种不同的提示方法，其中大部分已在最近两年内发表。

提示工程分类图

1 引言

随着 LLMs 的引入，人工智能取得了显著的进步。LLMs 在包含数百万甚至数十亿个标记的大量文本文档上进行训练。已经证明，随着模型参数数量的增加，机器学习模型的性能会提高，LLMs 也是如此。由于这些原因，它们在广泛的 NLP 任务上取得了前所未有的性能（Chang 等人，2023 年），因此吸引了学术界和包括医学、法律、金融等多个行业的极大兴趣。目前对 LLMs 的研究重点在于通过提示而不是仅仅预测下一个标记来提高它们的推理能力，这开辟了提示工程的新研究领域。

提示工程是创建自然语言指令或提示的过程，以有组织的方式从 LLMs 中提取知识。与早期的传统模型不同，提示工程仅依赖于 LLMs 的内嵌知识，不需要根据底层 NLP 任务进行广泛的参数重新训练或微调。理解模型参数在现实世界知识中的含义超出了人类的能力，因此这个新的提示工程领域引起了所有人的注意，因为它允许研究人员与 LLMs 之间通过自然语言交换来实现底层 NLP 任务的目标。

在这项工作中，我们列举了几种提示策略，并根据它们被使用的不同的 NLP 任务对它们进行分组。我们提供了一个分类图，列出了在不同 NLP 任务的不同数据集上尝试的各种提示技术，讨论了所使用的 LLMs，并列出每个数据集的潜在 SoTA 方法。作为这项调查的一部分，我们总共回顾并分析了 44 篇研究论文，其中大部分在前两年发表，涵盖了 29 个不同的 NLP 任务上应用的 39 种提示技术。以前没有很多系统的提示工程调查。Sahoo 等人（2024 年）基于它们的应用调查了 29 种提示技术论文。这是一个非常广泛的分类，因为一个单一的应用可以包含许多 NLP 任务。例如，他们讨论的一个应用是推理和逻辑，这可以包含诸如常识推理、数学问题解决、多跳推理等众多 NLP 任务。这与我们的方法不同，我们根据 NLP 任务对提示策略进行了更细粒度的分类。Edemacu 和 Wu（2024）提供了一个隐私保护提示方法的概述，因此专注于提示工程的相对较小的子领域。Chen 等人（2023）将提示策略的讨论限制在一些 9-10 种方法上，并且也没有将它们根据 NLP 任务进行分类。

本文的其余部分组织如下。第 2 节讨论了各种提示工程技术；第 3 节突出了不同的 NLP 任务。第 3 节的小节讨论了在给定 NLP 任务上应用的不同提示策略及其相应的结果。第 4 节总结了本文。

2 提示工程技术

在本节中，我们将简要讨论不同的提示方法以及它们如何在发布时带来现有性能的改进。一个重要的注意事项是，以下大多数提示策略都至少在两种不同的变体或设置中进行了实验，如果没有更多的话。这些变体包括零样本（zero-shot）和少样本（few-shot）。一些提示技术可能本质上存在于零样本或少样本变体中，可能没有其他变体存在的可能性。在零样本设置中（Radford et al., 2019），没有涉及训练数据，而是要求 LLM 通过提示指令执行任务，同时完全依赖于其在预训练阶段学习到的内嵌知识。另一方面，在少样本变体中（Brown et al., 2020），提供了少量训练数据点以及基于任务的提示指令，以更好地理解任务。各种提示工程工作的结果表明，少样本变体有助于提高性能，但这需要仔细准备少样本数据点，因为 LLM 可能对策划的少样本数据点表现出无法解释的偏见。

2.1 基础提示（Basic/Standard/Vanilla Prompting）

基础提示是指直接向 LLM 提出查询的方法，无需对其进行任何工程改进以提高性能，这是大多数提示策略背后的核心目标。基础提示在不同的研究论文中也被称为标准或香草提示。

2.2 思维链（Chain-of-Thought, COT）

在这种提示策略中（Wei et al., 2022），作者们建立了一个想法，即人类如何将复杂问题分解为更小、更容易的子问题，然后才到达复杂问题的最终解决方案。同样地，作者们研究了 LLMs 通过产生思维链或一系列中间推理步骤来增强其复杂推理能力的能力。结果显示，与基础提示相比，COT 有相当大的改进，COT 和基础提示结果之间的最大差异在数学问题解决任务中约为 39%，在常识推理任务中约为 26%。这项工作为提示工程领域开辟了一个新的研究方向。