引言
随着大语言模型(LLM)能力的不断提升,推理能力成为了衡量模型智能水平的关键指标。思维链(Chain-of-Thought, CoT)作为一种提示工程技术,通过引导模型生成中间推理步骤,显著提升了复杂任务的表现。然而,CoT 为何有效?其内部机制究竟依赖于哪些要素?近期有一项实证研究深入探讨了这一问题,将影响 CoT 效果的核心元素拆解为 Text(文本)、Symbol(符号)和 Pattern(模式)三个部分,并通过控制变量实验分析了各要素的贡献。
基于实证研究深入分析了思维链(CoT)提示技术的核心原理。研究将 CoT 元素拆解为 Text、Symbol 和 Pattern 三部分,并通过控制变量实验得出结论:Symbol 的具体形式和取值对 CoT 效果影响有限,模型具备较强的实体泛化能力;Pattern 是 CoT 生效的必要不充分条件,仅有结构不足以支撑高质量推理;而在推理阶段保持关键实体的一致性以及语法风格的统一至关重要。文章还提供了 CoT 提示词的结构示例,为开发者优化 Prompt 设计提供了理论依据和实践指导。

随着大语言模型(LLM)能力的不断提升,推理能力成为了衡量模型智能水平的关键指标。思维链(Chain-of-Thought, CoT)作为一种提示工程技术,通过引导模型生成中间推理步骤,显著提升了复杂任务的表现。然而,CoT 为何有效?其内部机制究竟依赖于哪些要素?近期有一项实证研究深入探讨了这一问题,将影响 CoT 效果的核心元素拆解为 Text(文本)、Symbol(符号)和 Pattern(模式)三个部分,并通过控制变量实验分析了各要素的贡献。
本文基于该研究论文《Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters》,对 CoT 的原理进行深度解析,旨在帮助开发者理解如何构建更有效的提示词。
研究将 CoT 中的信息流拆分为三个维度,理解这些定义是分析实验结论的基础。
Text 指的是构成 Prompt 的普通 Token,即除了特定 Symbol 之外的所有自然语言描述。它承载了任务的指令、上下文背景以及推理过程中的逻辑连接词。
Symbol 是数据集的核心主体实体。在不同的数据集中,Symbol 的表现形式不同:
从概念上讲,Symbol 类似于 NLP 中的实体(Entity)。它们是需要被处理的具体对象,而非通用的语法结构。
Pattern 可以是 Symbol 的组合,也可以是连接符(如公式)或帮助模型理解任务的表述结构。值得注意的是,Pattern 和 Symbol 允许重合。例如,在数学公式中,整个公式可以被视为一个 Pattern,但公式中的数字同时又是 Symbol。在非数学问题上,Pattern 的定义可能更为抽象,通常指代推理的逻辑框架或句式结构。
为了量化上述三个元素对 CoT 效果的贡献,研究者采用了 Few-shot Prompting 的方式,通过改变特定元素的取值来进行控制变量实验。主要测试模型包括 text-davinci-002 和 text-davinci-003。
实验主要通过以下三种操作来隔离变量:
研究通过两种方式验证了 Symbol 的鲁棒性:
作者使用通用特殊符号替换了 Question、Prompt 和 Answer 中的所有 Symbol。例如,将具体的数字替换为抽象符号。实验结果显示,这种替换对 CoT 的效果影响非常有限。
这种方式更接近分布外(Out-of-Distribution)测试。对于 GSM8K 数学问题,用一一对应的数学数字替换文字数字;对于体育常识,随机替换人名和赛事;对于时间常识,用未来时间替换当前时间。关键在于,作者保证了推理逻辑的一致性,包括同一数字使用同一 Symbol 替换,且替换后的实体符合推理逻辑。
结论:除体育问题中的随机实体替换外,其余 Symbol 的替换对 CoT 效果影响甚微。这表明模型的泛化能力并非来自对实体本身形式的记忆,而是学会了不同类型的实体会出现在哪些上下文中。这种替换并不大幅影响上文对上文的 Attention 机制。
针对 Pattern,研究者采用了两种极端的实验类型:只保留 Pattern 和只剔除 Pattern。
结论:Pattern 对 CoT 有显著影响,是生效的必要条件,但仅有 Pattern 不足以支撑高质量的推理。这与其他关于'只有数学公式的 CoT 效果不好'的观察一致。
最后针对 Text 部分,作者进行了实体替换和语法替换实验。
将推理中的实体随机替换成和问题中不一样的实体(如数学问题中的数字、常识问题中的时间地点)。实验结果发现,随机实体替换对所有任务的 CoT 效果影响非常大。
将常规英文表达改为 Yoda 风格(名词 - 形容词 - 动词顺序),例如将 "This is my home" 改为 "My home this is"。实验仅对 Thought 部分进行语法替换,Question 保持正常。
结论:
为了更好地理解 Pattern 和 Text 的配合,以下是一个标准的 CoT 提示词结构示例(伪代码):
prompt = f"""
Q: {question}
A: Let's think step by step.
Step 1: {reasoning_step_1}
Step 2: {reasoning_step_2}
...
Final Answer: {answer}
"""
在这个结构中,question 包含了关键的 Symbol,Let's think step by step 是触发 Pattern 的关键指令,而中间的 reasoning_step 则是 Text 和 Symbol 混合的推理过程。保持 Step 之间的逻辑连贯性和实体一致性是成功的关键。
通过对 Text、Symbol 和 Pattern 三个维度的实证分析,我们可以得出以下关于 CoT 的核心认知:
对于开发者而言,在设计 Prompt 时,应优先保证推理逻辑的结构清晰(Pattern),并确保推理过程中引用的关键信息与问题高度一致(Text/Symbol),而无需过度担心具体实体的形式变化。未来的研究方向可进一步探索如何在多模态场景下定义这些元素,以及如何自动化优化 Pattern 结构以提升推理效率。
注:本文基于相关学术研究的实证结论整理,旨在技术分享,不涉及商业推广。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online