总结:大模型是 Agent 的基础,没有大模型,Agent 就没有'思考能力';但只有大模型,也成不了 Agent(因为大模型不会主动行动、不会记忆长期信息)。
一、大模型(LLM)到底是什么?
很多人对大模型的理解有误区,觉得它'无所不能',能像人一样思考、理解世界;也有人觉得它'只是个问答机器人',没必要深入学习。其实这两种想法都不对。
用最通俗的话讲:大语言模型(LLM),就是基于海量文本数据训练出来的、能预测'下一个词'概率的模型。
- 它不'理解',只是'拟合':大模型没有真正的意识,不会像人一样思考、推理(至少目前不会)。它的所有输出,都是基于训练数据中'词与词的关联规律',预测出最可能出现的下一个词、下一句话。比如你输入'今天天气很好,我想出去',它会预测出'玩''散步'等词,因为训练数据中,这些词经常和前面的句子关联在一起。
- 核心能力来自'海量数据':大模型的训练数据涵盖了互联网上的文本、书籍、论文、代码等,量级达到千亿、万亿级。正是因为'见多识广',它才能拟合出各种语言模式,实现理解、生成、总结等能力。
- 它是 Agent 的'核心大脑':Agent 能自主决策、拆解任务、调用工具,本质上是靠大模型的'理解能力'和'推理能力'——大模型负责读懂用户需求、判断下一步该做什么,而 Agent 的其他模块(记忆、工具调用),都是为了弥补大模型的不足,让它能'落地做事'。
二、核心基础概念
这部分是重点,也是很多新手容易踩坑的地方。这些概念不仅要懂,还要知道在 Agent 开发中怎么用、怎么调,后续做项目时能少走很多弯路。
1. 上下文窗口(Context Window)——大模型的'记忆上限'
上下文窗口,简单说就是大模型能'记住'的最大文本长度。就像人有短期记忆,只能记住最近说的几句话,大模型也有'短期记忆上限',超过这个上限,它就会遗忘前面的内容。
关键细节(开发必看):
- 单位是 Token:上下文长度不是按'字数'算,而是按'Token'(词元)算,后面会详细讲 Token。
- 常见长度及用途:
- 4k/8k:适合简单对话、短文本生成(比如简单的客服回复、单轮指令执行);
- 16k/32k:适合多轮对话、中等长度文档处理(比如 Agent 的多轮任务拆解、短文档检索);
- 128k 及以上:适合长文档处理、复杂任务(比如 Agent 处理长篇报告、学术论文调研)。
- 对 Agent 的影响(重中之重):Agent 需要记住用户需求、任务步骤、中间结果,这些都要占用上下文窗口。如果上下文窗口太小,Agent 会'记不住'前面的任务,导致决策失误、任务中断。比如做一个'数据分析 Agent',需要处理大量数据描述和步骤,就必须选择 16k 以上上下文的模型,否则会遗忘关键数据。
- 注意:不要盲目追求大上下文窗口,窗口越大,模型响应速度越慢、成本越高。根据 Agent 的任务场景选择即可——比如简单的文案生成 Agent,8k 窗口完全足够。
2. Token(词元)——大模型的'最小计算单位'
Token 是大模型处理文本的最小单位,相当于我们说话的'音节'、写字的'笔画',大模型所有的计算(上下文长度、计费、生成),都是以 Token 为单位的。
关键细节(开发必看):
- Token 与字数的换算:
- 中文:1 个汉字 ≈ 1 个 Token(少数复杂汉字可能占 2 个,比如生僻字);
- 英文:1 个单词 ≈ 1~3 个 Token(短词如'a''the'算 1 个,长词如'artificial intelligence'算 2 个);
- 标点、空格、换行:都会占用 Token(比如逗号、句号、空格各算 1 个 Token)。
- 实用工具:开发时可以用模型厂商提供的 Token 计算器(比如 OpenAI 的 Token 计算器、文心一言的 Token 估算工具),提前估算输入输出的 Token 数量,避免超过上下文窗口,也能控制成本。
- 对 Agent 的影响:Agent 的对话轮次、任务描述、工具返回结果,都会占用 Token。比如 Agent 处理多轮对话时,每一轮的提问和回复都会累计 Token,当累计量接近上下文窗口上限时,就需要做'上下文压缩'(比如总结前面的对话核心),否则会遗忘内容。


