本地低配环境部署与调试 Qwen3.5-4B 模型

设备是：ROG 魔霸新锐 2022（配置：AMD R9-6900HX + RTX 3060 Laptop 6GB + 16GB DDR5 内存）

选择部署的模型：Qwen3.5-4B

理由是：

显存匹配度满分：Qwen3.5-4B 的 4-bit 量化版本（最常用）仅需约 2.5GB - 3GB 显存。我的显卡只有 6GB，所以可以流畅运行模型，还能预留 3GB+ 的显存给超长上下文（处理长文档、长对话）或多模态图片输入，不会爆显存。

第一步：安装 Ollama

下载安装包：
- 访问官网：https://ollama.com
验证安装：
- 按下 Win + R，输入 cmd 回车。

输入以下命令：

ollama --version

如果显示版本号，说明安装成功。

点击 "Download"，选择 Windows 版本下载并安装。

(此处为安装界面截图)

第二步：运行基础模型

在命令行（CMD 或 PowerShell）中执行以下命令，系统将自动下载并运行模型：

ollama run qwen3.5:4b

过程说明：第一次运行会下载模型文件（约 2.5GB），速度取决于您的网速。下载完成后，会自动进入对话界面，显示 >>> 提示符。此时模型已经可以在本地运行了！

第三步：自定义配置文件 (Modelfile)

进行微调参数使模型更适配更好用。

可以将你的配置需求分给其他大模型助手生成一个合适的配置文件，然后复制到新创建的文本文件里面，更改命名为'Modelfile'，记得去掉后缀。

以下是我的处理，我随便找个地方创建个文件夹，然后把配置文件放在里面：

我的配置文件内容如下：

# 1. 基础模型 FROM qwen3.5:4b 
# 2. 系统人设 (可按需修改) 
SYSTEM """ 
你是一个由阿里云开发的智能助手 Qwen3.5。 
- 擅长：逻辑推理、代码编写、数学计算、长文本总结。 
- 风格：回答简洁、准确、结构化。 
- 限制：如果遇到不确定的信息，请诚实告知，不要编造。 
""" 
# 3. 核心参数配置 
# --- 显存与上下文 (关键：充分利用 6GB 显存) --- 
# 设置上下文为 16k，既能处理长文档，又不会爆显存 (约占用 3-4GB 总显存) 
PARAMETER num_ctx 16384 
# --- 生成质量控制 --- 
# 温度：0.7 是通用平衡点。写代码时可临时调低至 0.2 
PARAMETER temperature 0.7 
# 核采样：过滤低概率词，提高通顺度 
PARAMETER top_p 0.8 
# 重复惩罚：防止啰嗦 
PARAMETER repeat_penalty 1.1 
# --- 生成长度 --- 
# 允许模型生成较长的回答 (最多 4096 tokens) 
PARAMETER num_predict 4096

(此处为 Modelfile 编辑界面截图)

在 Ollama 的 Modelfile 中，可以配置 三大类 内容：基础模型来源、推理参数 (Parameters) 和 系统提示词 (System Prompt)。

本地低配环境部署与调试 Qwen3.5-4B 模型

第一步：安装 Ollama

第二步：运行基础模型

第三步：自定义配置文件 (Modelfile)

基础模型来源配置

更多推荐文章

相关免费在线工具

推理参数 (Parameters)

系统提示词 (System Prompt)

第四步：构建个性化模型

更多推荐文章

相关免费在线工具

本地低配环境部署与调试 Qwen3.5-4B 模型

第一步：安装 Ollama

第二步：运行基础模型

第三步：自定义配置文件 (Modelfile)

基础模型来源配置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

推理参数 (Parameters)

系统提示词 (System Prompt)

第四步：构建个性化模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具