设备是:ROG 魔霸新锐 2022(配置:AMD R9-6900HX + RTX 3060 Laptop 6GB + 16GB DDR5 内存)
选择部署的模型:Qwen3.5-4B
理由是:
显存匹配度满分:Qwen3.5-4B 的 4-bit 量化版本(最常用)仅需约 2.5GB - 3GB 显存。我的显卡只有 6GB,所以可以流畅运行模型,还能预留 3GB+ 的显存给超长上下文(处理长文档、长对话)或多模态图片输入,不会爆显存。
本文介绍了如何在配置较低的本地设备(如 RTX 3060 Laptop)上,使用 Ollama 工具部署和调试 Qwen3.5-4B 开源模型。内容包括软件安装验证、基础模型运行、通过 Modelfile 自定义系统提示词与参数配置,以及创建个性化模型版本的具体步骤。
设备是:ROG 魔霸新锐 2022(配置:AMD R9-6900HX + RTX 3060 Laptop 6GB + 16GB DDR5 内存)
选择部署的模型:Qwen3.5-4B
理由是:
显存匹配度满分:Qwen3.5-4B 的 4-bit 量化版本(最常用)仅需约 2.5GB - 3GB 显存。我的显卡只有 6GB,所以可以流畅运行模型,还能预留 3GB+ 的显存给超长上下文(处理长文档、长对话)或多模态图片输入,不会爆显存。
Win + R,输入 cmd 回车。输入以下命令:
ollama --version
如果显示版本号,说明安装成功。
点击 "Download",选择 Windows 版本下载并安装。
(此处为安装界面截图)
在命令行(CMD 或 PowerShell)中执行以下命令,系统将自动下载并运行模型:
ollama run qwen3.5:4b
过程说明:第一次运行会下载模型文件(约 2.5GB),速度取决于您的网速。下载完成后,会自动进入对话界面,显示 >>> 提示符。此时模型已经可以在本地运行了!
进行微调参数使模型更适配更好用。
可以将你的配置需求分给其他大模型助手生成一个合适的配置文件,然后复制到新创建的文本文件里面,更改命名为'Modelfile',记得去掉后缀。
以下是我的处理,我随便找个地方创建个文件夹,然后把配置文件放在里面:
我的配置文件内容如下:
# 1. 基础模型 FROM qwen3.5:4b
# 2. 系统人设 (可按需修改)
SYSTEM """
你是一个由阿里云开发的智能助手 Qwen3.5。
- 擅长:逻辑推理、代码编写、数学计算、长文本总结。
- 风格:回答简洁、准确、结构化。
- 限制:如果遇到不确定的信息,请诚实告知,不要编造。
"""
# 3. 核心参数配置
# --- 显存与上下文 (关键:充分利用 6GB 显存) ---
# 设置上下文为 16k,既能处理长文档,又不会爆显存 (约占用 3-4GB 总显存)
PARAMETER num_ctx 16384
# --- 生成质量控制 ---
# 温度:0.7 是通用平衡点。写代码时可临时调低至 0.2
PARAMETER temperature 0.7
# 核采样:过滤低概率词,提高通顺度
PARAMETER top_p 0.8
# 重复惩罚:防止啰嗦
PARAMETER repeat_penalty 1.1
# --- 生成长度 ---
# 允许模型生成较长的回答 (最多 4096 tokens)
PARAMETER num_predict 4096
(此处为 Modelfile 编辑界面截图)
在 Ollama 的 Modelfile 中,可以配置 三大类 内容:基础模型来源、推理参数 (Parameters) 和 系统提示词 (System Prompt)。
FROM 指令:用于指定基础模型的来源路径或名称 示例:
FROM mistral表示基于 mistral 基础模型 支持本地模型路径或 Hugging Face 等模型仓库的模型名称 可以指定具体的模型版本号,如FROM mistral:7b
示例配置:
PARAMETER temperature 0.7
PARAMETER top_k 50
PARAMETER num_ctx 2048
TEMPLATE 指令:定义模型的系统级提示 可以设置角色设定、回答风格等 支持多行模板定义
示例:
TEMPLATE """
你是一个专业的技术助手,请用简洁清晰的语言回答用户问题。
回答时应遵循以下要求:
1. 给出明确的解决方案
2. 必要时提供示例代码
3. 避免冗长的解释
"""
配置文件搞定后在当前存有配置文件的地方------>右键选择在终端打开。
开始创建命令:
ollama create qwen3.5-creative -f Modelfile
如果成功后会出现 success:
(此处为构建成功截图)
如果你是 0.17.7 或以上版本的,可以直接使用 ollama 的可视化窗口直接使用。
(此处为可视化窗口截图)
如果你的版本比较低 ollama 没有可视化窗口,可以执行以下命令:
ollama run qwen3.5-creative
然后可以开始你的本地 AI 助手之旅了。
(此处为对话界面截图)

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online
将 HTML 片段转为 GitHub Flavored Markdown,支持标题、列表、链接、代码块与表格等;浏览器内处理,可链接预填。 在线工具,HTML 转 Markdown在线工具,online