Agent 入门前置：大模型基础与开发核心概念

总结：大模型是 Agent 的基础，没有大模型，Agent 就没有'思考能力'；但只有大模型，也成不了 Agent（因为大模型不会主动行动、不会记忆长期信息）。

一、大模型（LLM）到底是什么？

很多人对大模型的理解有误区，觉得它'无所不能'，能像人一样思考、理解世界；也有人觉得它'只是个问答机器人'，没必要深入学习。其实这两种想法都不对。

用最通俗的话讲：大语言模型（LLM），就是基于海量文本数据训练出来的、能预测'下一个词'概率的模型。

它不'理解'，只是'拟合'：大模型没有真正的意识，不会像人一样思考、推理（至少目前不会）。它的所有输出，都是基于训练数据中'词与词的关联规律'，预测出最可能出现的下一个词、下一句话。比如你输入'今天天气很好，我想出去'，它会预测出'玩''散步'等词，因为训练数据中，这些词经常和前面的句子关联在一起。
核心能力来自'海量数据'：大模型的训练数据涵盖了互联网上的文本、书籍、论文、代码等，量级达到千亿、万亿级。正是因为'见多识广'，它才能拟合出各种语言模式，实现理解、生成、总结等能力。
它是 Agent 的'核心大脑'：Agent 能自主决策、拆解任务、调用工具，本质上是靠大模型的'理解能力'和'推理能力'——大模型负责读懂用户需求、判断下一步该做什么，而 Agent 的其他模块（记忆、工具调用），都是为了弥补大模型的不足，让它能'落地做事'。

二、核心基础概念

这部分是重点，也是很多新手容易踩坑的地方。这些概念不仅要懂，还要知道在 Agent 开发中怎么用、怎么调，后续做项目时能少走很多弯路。

1. 上下文窗口（Context Window）——大模型的'记忆上限'

上下文窗口，简单说就是大模型能'记住'的最大文本长度。就像人有短期记忆，只能记住最近说的几句话，大模型也有'短期记忆上限'，超过这个上限，它就会遗忘前面的内容。

关键细节（开发必看）：

单位是 Token：上下文长度不是按'字数'算，而是按'Token'（词元）算，后面会详细讲 Token。
常见长度及用途：
- 4k/8k：适合简单对话、短文本生成（比如简单的客服回复、单轮指令执行）；
- 16k/32k：适合多轮对话、中等长度文档处理（比如 Agent 的多轮任务拆解、短文档检索）；
- 128k 及以上：适合长文档处理、复杂任务（比如 Agent 处理长篇报告、学术论文调研）。
对 Agent 的影响（重中之重）：Agent 需要记住用户需求、任务步骤、中间结果，这些都要占用上下文窗口。如果上下文窗口太小，Agent 会'记不住'前面的任务，导致决策失误、任务中断。比如做一个'数据分析 Agent'，需要处理大量数据描述和步骤，就必须选择 16k 以上上下文的模型，否则会遗忘关键数据。
注意：不要盲目追求大上下文窗口，窗口越大，模型响应速度越慢、成本越高。根据 Agent 的任务场景选择即可——比如简单的文案生成 Agent，8k 窗口完全足够。

2. Token（词元）——大模型的'最小计算单位'

Token 是大模型处理文本的最小单位，相当于我们说话的'音节'、写字的'笔画'，大模型所有的计算（上下文长度、计费、生成），都是以 Token 为单位的。

关键细节（开发必看）：

Token 与字数的换算：
- 中文：1 个汉字 ≈ 1 个 Token（少数复杂汉字可能占 2 个，比如生僻字）；
- 英文：1 个单词 ≈ 1~3 个 Token（短词如'a''the'算 1 个，长词如'artificial intelligence'算 2 个）；
- 标点、空格、换行：都会占用 Token（比如逗号、句号、空格各算 1 个 Token）。
实用工具：开发时可以用模型厂商提供的 Token 计算器（比如 OpenAI 的 Token 计算器、文心一言的 Token 估算工具），提前估算输入输出的 Token 数量，避免超过上下文窗口，也能控制成本。
对 Agent 的影响：Agent 的对话轮次、任务描述、工具返回结果，都会占用 Token。比如 Agent 处理多轮对话时，每一轮的提问和回复都会累计 Token，当累计量接近上下文窗口上限时，就需要做'上下文压缩'（比如总结前面的对话核心），否则会遗忘内容。

Agent 入门前置：大模型基础与开发核心概念

一、大模型（LLM）到底是什么？

二、核心基础概念

1. 上下文窗口（Context Window）——大模型的'记忆上限'

2. Token（词元）——大模型的'最小计算单位'

3. 生成参数（开发必调，决定输出效果）

更多推荐文章

相关免费在线工具

（1）temperature（温度）——控制输出的随机性

（2）top_p（核采样）——控制词汇多样性

（3）max_tokens——控制最大生成长度

4. 大模型的能力边界（Agent 存在的核心原因）

三、大模型的两种核心能力

1. 理解能力——Agent 的'感知力'

2. 生成能力——Agent 的'表达力'

四、思维链 CoT（Chain-of-Thought）——Agent 自主决策的关键

1. 思维链的核心作用

2. 如何在 Agent 中使用思维链？

五、主流大模型分类（Agent 开发选型用）

1. 闭源商用模型（直接调用 API）

2. 开源本地模型（自己部署）

3. 选型建议

六、总结：大模型与 Agent 的关系

更多推荐文章

相关免费在线工具

Agent 入门前置：大模型基础与开发核心概念

一、大模型（LLM）到底是什么？

二、核心基础概念

1. 上下文窗口（Context Window）——大模型的'记忆上限'

2. Token（词元）——大模型的'最小计算单位'

3. 生成参数（开发必调，决定输出效果）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

（1）temperature（温度）——控制输出的随机性

（2）top_p（核采样）——控制词汇多样性

（3）max_tokens——控制最大生成长度

4. 大模型的能力边界（Agent 存在的核心原因）

三、大模型的两种核心能力

1. 理解能力——Agent 的'感知力'

2. 生成能力——Agent 的'表达力'

四、思维链 CoT（Chain-of-Thought）——Agent 自主决策的关键

1. 思维链的核心作用

2. 如何在 Agent 中使用思维链？

五、主流大模型分类（Agent 开发选型用）

1. 闭源商用模型（直接调用 API）

2. 开源本地模型（自己部署）

3. 选型建议

六、总结：大模型与 Agent 的关系

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具