基于 Clawdbot 与 Ollama 部署 Qwen3-32B 本地 AI 网关
1. 方案背景与优势
本地部署大模型常面临环境配置复杂、依赖冲突等问题,如 CUDA 版本不匹配、PyTorch 编译失败、模型权重下载中断等。Clawdbot + Qwen3-32B 的 Web 网关方案旨在解决这些问题,提供开箱即用的本地 AI 对话平台。
该方案无需编译代码,不依赖系统级 Python 或 Node.js 环境,利用 Ollama 自动拉取并管理模型,通过极简内部代理桥接交互与推理,仅需一条命令即可启动。
核心逻辑是将模型推理交给 Ollama(支持 GPU 加速),将交互体验交给 Clawdbot(简洁 UI、流式响应),再用内部代理转发请求。此组合经过实际场景验证,稳定可靠。
2. 整体架构
2.1 组件说明
系统由三个独立但协同的组件构成,通过标准 HTTP 接口通信:
- Clawdbot:运行在
localhost:8080,提供 Web 聊天界面。 - Ollama:默认监听
localhost:11434,提供 OpenAI 兼容 API,Qwen3-32B 预置并可一键加载。 - 内部代理:基于
http-proxy-middleware封装,监听localhost:18789,将 Clawdbot 后端请求转发给 Ollama,透传响应头与流式数据。
这种分层设计带来以下好处:
- 升级灵活:换模型只需
ollama run,Clawdbot 无感。 - 调试清晰:各环节可单独测试。
- 安全可控:Ollama 不暴露公网,仅通过本地代理通信。
2.2 端口分工
| 端口 | 用途 | 设计理由 |
|---|---|---|
8080 | Clawdbot Web 访问端口 | 符合开发习惯,避免 sudo 权限 |
18789 | Clawdbot 后端 → 代理通信端口 | 避免与常见服务冲突 |
11434 | Ollama 默认 API 端口 | Ollama 官方约定,开箱即用 |
注意:这三个端口全部绑定在
localhost,默认不对外网开放。
3. 一键部署实操
3.1 前提检查
请在终端中依次执行以下命令,确保基础环境满足最低要求:
# 检查 Docker 是否运行
docker info > /dev/null 2>&1 && echo "Docker 正常" || echo "❌ 请先安装并启动 Docker"
# 检查 Ollama 是否已安装(v0.5.0+ 推荐)
ollama --version 2>/dev/null | grep -q "version" && echo "Ollama 已安装" || echo
nvidia-smi --query-gpu=name --format=csv,noheader,nounits 2>/dev/null | -1 | grep -q && ||

