设备是:ROG 魔霸新锐 2022(配置:AMD R9-6900HX + RTX 3060 Laptop 6GB + 16GB DDR5 内存)
选择部署的模型:Qwen3.5-4B
理由是:
显存匹配度满分:Qwen3.5-4B 的 4-bit 量化版本(最常用)仅需约 2.5GB - 3GB 显存。我的显卡只有 6GB,所以可以流畅运行模型,还能预留 3GB+ 的显存给超长上下文(处理长文档、长对话)或多模态图片输入,不会爆显存。
第一步:安装 Ollama
- 下载安装包:
- 访问官网:https://ollama.com
- 验证安装:
- 按下
Win + R,输入cmd回车。
- 按下
输入以下命令:
ollama --version
如果显示版本号,说明安装成功。
点击 "Download",选择 Windows 版本下载并安装。
(此处为安装界面截图)
第二步:运行基础模型
在命令行(CMD 或 PowerShell)中执行以下命令,系统将自动下载并运行模型:
ollama run qwen3.5:4b
过程说明:第一次运行会下载模型文件(约 2.5GB),速度取决于您的网速。下载完成后,会自动进入对话界面,显示 >>> 提示符。此时模型已经可以在本地运行了!
第三步:自定义配置文件 (Modelfile)
进行微调参数使模型更适配更好用。
可以将你的配置需求分给其他大模型助手生成一个合适的配置文件,然后复制到新创建的文本文件里面,更改命名为'Modelfile',记得去掉后缀。
以下是我的处理,我随便找个地方创建个文件夹,然后把配置文件放在里面:
我的配置文件内容如下:
# 1. 基础模型 FROM qwen3.5:4b
# 2. 系统人设 (可按需修改)
SYSTEM """
你是一个由阿里云开发的智能助手 Qwen3.5。
- 擅长:逻辑推理、代码编写、数学计算、长文本总结。
- 风格:回答简洁、准确、结构化。
- 限制:如果遇到不确定的信息,请诚实告知,不要编造。
"""
# 3. 核心参数配置
# --- 显存与上下文 (关键:充分利用 6GB 显存) ---
# 设置上下文为 16k,既能处理长文档,又不会爆显存 (约占用 3-4GB 总显存)
PARAMETER num_ctx 16384
# --- 生成质量控制 ---
# 温度:0.7 是通用平衡点。写代码时可临时调低至 0.2
PARAMETER temperature 0.7
# 核采样:过滤低概率词,提高通顺度
PARAMETER top_p 0.8
# 重复惩罚:防止啰嗦
PARAMETER repeat_penalty 1.1
# --- 生成长度 ---
# 允许模型生成较长的回答 (最多 4096 tokens)
PARAMETER num_predict 4096
(此处为 Modelfile 编辑界面截图)
在 Ollama 的 Modelfile 中,可以配置 三大类 内容:基础模型来源、推理参数 (Parameters) 和 系统提示词 (System Prompt)。

