Llama-3.2-3B 部署优化：Ollama 配置上下文窗口与 Token 限制

Llama-3.2-3B 模型在 Ollama 中默认上下文窗口较小，易导致长对话丢失信息或文本截断。通过创建自定义 Modelfile 调整 num_ctx 和 num_predict 参数，可显著扩展上下文记忆长度与单次生成 token 数。内容涵盖环境检查、Modelfile 配置模板、模型构建命令及 API 调用方法，并提供内存不足等问题的排查建议，帮助用户根据硬件资源平衡性能与上下文需求。

监控大屏发布于 2026/4/8更新于 2026/7/2238 浏览

Llama-3.2-3B 部署优化：Ollama 配置上下文窗口与 Token 限制

在使用 Ollama 运行 Llama-3.2-3B 时，可能会遇到对话丢失历史或长文本被截断的问题。这通常不是模型本身的问题，而是默认的上下文长度（context window）和 token 限制设置不够用。通过调整这些关键参数，可以让模型处理更长的对话和文档。

1. 核心概念：为什么需要调整 Context Window 和 Token 限制？

1.1 什么是 Context Window（上下文窗口）？

Context Window 是模型的工作记忆区，决定了模型在生成下一个词时能参考之前多长的文本。

默认情况：Ollama 默认拉取的 Llama-3.2-3B，其上下文窗口可能被设置为保守值（例如 8192 tokens）。这意味着模型最多只能记住大约 6000-8000 个单词的上下文。
实际问题：当进行多轮长对话、总结长文档或编写长代码时，一旦内容超过限制，最早输入的信息会被挤出记忆窗口，导致回答质量下降。

1.2 什么是 Token 和 Token 限制？

Token 是模型处理文本的基本单位，不严格等于一个单词或汉字。

Token 限制：指单次生成（输出）的最大 token 数量。设置太低会导致话没说完就停止；设置太高可能生成无关内容。

简单来说，调整 Context Window 是为了让模型'记得更多'，调整 Token 限制是为了让模型'一次说得更长'。

2. 环境准备：确认 Ollama 与模型状态

首先，打开终端执行以下命令，检查 Ollama 是否在运行以及模型是否已拉取：

# 检查 Ollama 服务状态
ollama list

如果看到 llama3.2:3b 在列表中，说明模型已就绪。如果还没拉取，请先执行：

ollama pull llama3.2:3b

3. 核心操作：创建并配置自定义 Modelfile

Ollama 允许通过 Modelfile 定义和创建自定义版本的模型。

3.1 创建 Modelfile

在任意目录下创建一个名为 Modelfile 的文本文件（无后缀），使用编辑器打开并填入以下内容：

FROM llama3.2:3b
PARAMETER system "你是一个乐于助人且知识渊博的 AI 助手。请用清晰、准确的中文回答用户的问题。"
PARAMETER temperature 0.7
# 调整上下文窗口大小 (必须是 64 的倍数)
PARAMETER num_ctx 16384
# 调整单次生成的最大 token 数
PARAMETER num_predict 4096

参数详解：

num_ctx：重点调整项。16384 是性能与内存的平衡值。若内存充足可尝试 32768。增加此值会线性增加 RAM 消耗。
num_predict：设置为 4096，允许模型每次回复最多生成约 3000 个汉字。
temperature：保持 0.7，通用值。

3.2 创建自定义模型

保存文件后，在终端进入该目录执行：

ollama create my-llama3.2-3b-longctx -f ./Modelfile

完成后，用 ollama list 检查新模型。