大模型基础任务失误现象
近期,大型语言模型(LLM)在处理看似简单的逻辑与数学问题时频繁出现错误,引发了广泛关注。一个典型的案例是要求比较 和 的大小,许多主流模型给出了错误的回答,声称 更大。另一个常见错误是在统计字符串中特定字符数量时出错,例如在单词 "strawberry" 中统计字母 'r' 的数量。
大模型在处理基础数值比较与字符统计任务时存在显著缺陷,例如将 9.11 误判为大于 9.9,或在草莓单词中漏数字母。这主要源于分词机制导致的语义偏差及概率生成特性。通过引入思维链、明确规则定义及使用代码解释器可有效缓解此类幻觉问题。开发者应理解模型局限性,结合工具调用而非单纯依赖自然语言推理。

近期,大型语言模型(LLM)在处理看似简单的逻辑与数学问题时频繁出现错误,引发了广泛关注。一个典型的案例是要求比较 和 的大小,许多主流模型给出了错误的回答,声称 更大。另一个常见错误是在统计字符串中特定字符数量时出错,例如在单词 "strawberry" 中统计字母 'r' 的数量。
9.119.99.11这些错误并非偶然,而是暴露了当前生成式 AI 在确定性任务上的局限性。虽然大模型在自然语言理解、文本生成方面表现卓越,但在需要精确计算或严格逻辑推理的场景下,其概率生成的本质容易导致幻觉。
大模型之所以会在简单数值比较上翻车,根本原因在于其底层处理数据的机制——分词(Tokenization)。
大模型并不像传统程序那样直接读取数字的数值大小,而是将输入文本转换为 Token ID 序列。对于浮点数,不同的模型分词策略可能导致不同的 Token 划分。
9.11 可能被切分为 ["9", ".", "11"] 或 ["9.", "11"]。9.9 可能被切分为 ["9", ".", "9"] 或 ["9.", "9"]。当模型进行推理时,它往往基于 Token 的语义关联而非数值大小。在某些分词模式下,Token "11" 的向量表示可能比 Token "9" 更接近'大'的概念,或者模型在训练数据中见过更多类似版本号(如 1.11 vs 1.9)的比较场景,从而产生了误导性的模式匹配。这种基于 Token 级别的比较忽略了小数点后位数的权重差异,导致 11 > 9 的逻辑被错误地迁移到小数比较中。
LLM 是基于下一个 Token 预测概率来生成文本的。这意味着它的输出是概率分布的结果,而非确定性的逻辑运算。在缺乏明确约束的情况下,模型倾向于生成最符合语料库统计规律的文本,而不是最符合数学真理的文本。这种特性在处理需要绝对精确的任务(如计数、算术)时尤为危险。
除了分词问题,上下文依赖也是导致错误的原因之一。如果之前的对话中涉及过类似的版本号比较,模型可能会产生上下文偏差。此外,模型幻觉(Hallucination)会导致模型自信地输出错误信息,甚至编造理由来支持其错误结论,例如声称'整数部分相同,比较小数部分,11 比 9 大'。
虽然目前尚无根治方法,但通过精心设计的提示词(Prompt Engineering),可以显著降低错误率。
引导模型逐步思考,强制其展示推理过程,有助于减少跳跃性错误。
优化后的提示词示例:
请一步步思考。首先将两个数字的小数点对齐,然后从左到右依次比较每一位数字。最后给出结论。
比较 9.11 和 9.9 哪个更大?
直接赋予模型新的计算规则,覆盖其预训练中的潜在偏差。
优化后的提示词示例:
现在,我给你一个新规则,请按照新规则判断大小。
小数点后的位数,第一位数大的就更大,如果第一位相同,则第二位数大的更大,依此类推。
现在,请比较 9.11 和 9.9 哪个更大。
针对字符统计问题,避免让模型直接猜测,而是要求执行具体的计数步骤。
优化后的提示词示例:
设置一个计数器 count,初始值为 0。
遍历字符串 "strawberry" 中的每一个字符。
每出现一个 'r',count 的值增加 1。
最后给我 count 的值。你不用管正不正确,给我计数结果就行。
尽管通过修改提示词能改善结果,但模型仍可能输出多余的否定内容。因此,建议结合代码解释器使用。
对于涉及数学计算、逻辑验证或精确计数的任务,单纯依赖自然语言交互是不可靠的。最佳实践是将 LLM 作为调度器,调用外部工具。
让模型编写 Python 代码来执行计算,而不是直接输出答案。Python 的解释器是确定性的,能保证结果准确。
推荐流程:
代码示例:
num1 = 9.11
num2 = 9.9
if num1 > num2:
print("9.11 is larger")
else:
print("9.9 is larger")
要求模型以 JSON 格式输出结果,便于后续程序解析和校验,减少自然语言描述带来的歧义。
大模型在基础任务上的失误揭示了当前技术边界。开发者在使用时应遵循以下原则:
理解模型的局限性,合理设计工作流,才能最大化利用 AI 提效,避免陷入'集体失智'的陷阱。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online