基于 Clawdbot 与 Ollama 部署 Qwen3-32B 本地 AI 网关 | 极客日志

Shell / BashAI大前端算法

基于 Clawdbot 与 Ollama 部署 Qwen3-32B 本地 AI 网关

本地部署 Qwen3-32B 大模型常面临环境配置复杂、依赖冲突等问题。介绍基于 Clawdbot 与 Ollama 构建的轻量级 Web 网关方案，通过 Docker Compose 实现免编译、免依赖的一键启动。架构包含前端交互、内部代理及模型推理三层，数据全链路本地流转，保障隐私安全。支持 GPU 加速、多模型切换及自定义提示词，适用于开发者快速搭建私有化 AI 对话平台。

王者发布于 2026/4/9更新于 2026/7/530 浏览

基于 Clawdbot 与 Ollama 部署 Qwen3-32B 本地 AI 网关

1. 方案背景与优势

本地部署大模型常面临环境配置复杂、依赖冲突等问题，如 CUDA 版本不匹配、PyTorch 编译失败、模型权重下载中断等。Clawdbot + Qwen3-32B 的 Web 网关方案旨在解决这些问题，提供开箱即用的本地 AI 对话平台。

该方案无需编译代码，不依赖系统级 Python 或 Node.js 环境，利用 Ollama 自动拉取并管理模型，通过极简内部代理桥接交互与推理，仅需一条命令即可启动。

核心逻辑是将模型推理交给 Ollama（支持 GPU 加速），将交互体验交给 Clawdbot（简洁 UI、流式响应），再用内部代理转发请求。此组合经过实际场景验证，稳定可靠。

2. 整体架构

2.1 组件说明

系统由三个独立但协同的组件构成，通过标准 HTTP 接口通信：

Clawdbot：运行在 localhost:8080，提供 Web 聊天界面。
Ollama：默认监听 localhost:11434，提供 OpenAI 兼容 API，Qwen3-32B 预置并可一键加载。
内部代理：基于 http-proxy-middleware 封装，监听 localhost:18789，将 Clawdbot 后端请求转发给 Ollama，透传响应头与流式数据。

这种分层设计带来以下好处：

升级灵活：换模型只需 ollama run，Clawdbot 无感。
调试清晰：各环节可单独测试。
安全可控：Ollama 不暴露公网，仅通过本地代理通信。

2.2 端口分工

端口	用途	设计理由
`8080`	Clawdbot Web 访问端口	符合开发习惯，避免 sudo 权限
`18789`	Clawdbot 后端 → 代理通信端口	避免与常见服务冲突
`11434`	Ollama 默认 API 端口	Ollama 官方约定，开箱即用

注意：这三个端口全部绑定在 localhost，默认不对外网开放。

3. 一键部署实操

3.1 前提检查

请在终端中依次执行以下命令，确保基础环境满足最低要求：

# 检查 Docker 是否运行
docker info > /dev/null 2>&1 && echo "Docker 正常" || echo "❌ 请先安装并启动 Docker"

# 检查 Ollama 是否已安装（v0.5.0+ 推荐）
ollama --version 2>/dev/null | grep -q "version" && echo "Ollama 已安装" || echo 


nvidia-smi --query-gpu=name --format=csv,noheader,nounits 2>/dev/null |  -1 | grep -q  &&   ||

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

# 创建部署目录并进入
mkdir -p ~/clawdbot-qwen3 && cd ~/clawdbot-qwen3

# 下载 docker-compose.yml
curl -fsSL https://raw.githubusercontent.com/clawdbot/clawdbot/main/docker-compose.qwen3.yml -o docker-compose.yml

# 启动服务（后台运行）
docker compose up -d

# 验证服务状态
sleep 3
docker compose ps | grep -E "(clawdbot|proxy)" | awk '{print $1,$4}'

# 拉取并加载 Qwen3-32B（首次需约 8–12 分钟）
ollama run qwen3:32b

# 验证模型是否就绪
curl http://localhost:11434/api/tags 2>/dev/null | jq -r '.models[] | select(.name=="qwen3:32b") | .status'

curl -N http://localhost:18789/api/chat \
-H "Content-Type: application/json" \
-d '{ "model": "qwen3:32b", "messages": [{"role": "user", "content": "用一句话解释量子纠缠"}], "stream": true }' 2>/dev/null | grep -o '"content":"[^"]*"' | head -5

curl -X POST http://localhost:18789/api/chat \
-H "Content-Type: application/json" \
-d '{ "model": "qwen3:32b", "messages": [{"role": "user", "content": "你好"}], "stream": false }' | jq -r '.message.content'

运行模式	平均首字延迟	平均总耗时
CPU	4.8 秒	12.3 秒
GPU (RTX 4090)	0.9 秒	2.1 秒

ports:
  - "8080:8080"
extra_hosts:
  - "host.docker.internal:host-gateway"

export OLLAMA_NUM_GPU=1
systemctl --user restart ollama

基于 Clawdbot 与 Ollama 部署 Qwen3-32B 本地 AI 网关

基于 Clawdbot 与 Ollama 部署 Qwen3-32B 本地 AI 网关

1. 方案背景与优势

2. 整体架构

2.1 组件说明

2.2 端口分工

3. 一键部署实操

3.1 前提检查

更多推荐文章

相关免费在线工具

3.2 拉取并启动 Clawdbot

3.3 加载 Qwen3-32B 模型

3.4 连通性测试

4. 使用体验与性能

4.1 界面功能

4.2 性能表现

4.3 安全与隐私

5. 进阶玩法

5.1 局域网共享

5.2 多模型切换

5.3 自定义提示词

6. 常见问题

6.1 页面空白，报 502

6.2 响应慢，GPU 未占用

6.3 中文回答乱码

7. 总结

更多推荐文章

相关免费在线工具

基于 Clawdbot 与 Ollama 部署 Qwen3-32B 本地 AI 网关

基于 Clawdbot 与 Ollama 部署 Qwen3-32B 本地 AI 网关

1. 方案背景与优势

2. 整体架构

2.1 组件说明

2.2 端口分工

3. 一键部署实操

3.1 前提检查

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 拉取并启动 Clawdbot

3.3 加载 Qwen3-32B 模型

3.4 连通性测试

4. 使用体验与性能

4.1 界面功能

4.2 性能表现

4.3 安全与隐私

5. 进阶玩法

5.1 局域网共享

5.2 多模型切换

5.3 自定义提示词

6. 常见问题

6.1 页面空白，报 502

6.2 响应慢，GPU 未占用

6.3 中文回答乱码

7. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具