Qwen3-32B 模型部署：使用 Clawdbot 网关实现 WebSocket 长连接

1. 为什么需要一个能'一直在线'的 AI 聊天网关？

在网页里和大模型聊天时，常遇到页面卡住、断开或响应延迟的问题。刷新页面后对话历史丢失，如同通话中断。这源于传统 HTTP 短连接在实时交互场景下的局限。Qwen3-32B 等高性能大模型推理依赖稳定低延迟通道，仅靠 curl 调 API 无法支撑 Web 聊天界面。

Clawdbot 通过原生 WebSocket 长连接，让浏览器和后端建立持续畅通的通道。消息秒达，流式输出一气呵成，断网恢复后可续传。无需轮询或前端维护状态，基于开源组件组合完成。

2. 环境准备：三步搭好底层地基

2.1 硬件与系统要求（实测可用）

Qwen3-32B 在 Ollama 中默认启用 4-bit 量化，单张 RTX 4090（24G 显存）可稳定运行，CPU+GPU 混合推理模式下 A100 40G 也能流畅服务。

操作系统：Ubuntu 22.04 LTS（推荐）或 macOS Sonoma（M2 Ultra 实测通过）
显卡驱动：NVIDIA Driver ≥ 535（Linux） / CUDA Toolkit 12.1+
必备工具：
- docker（24.0+）
- ollama（v0.3.10+，必须新版本，老版不支持 Qwen3）
- git、curl、基础编译工具链

注意：Clawdbot 本身是 Go 二进制程序，不依赖 Node.js 或 Python 环境，部署极轻量。所有服务均容器化隔离，互不干扰。

2.2 一键拉起 Qwen3-32B（Ollama 方式）

Ollama 已原生支持 Qwen3 系列。执行以下命令，自动下载、解压、注册模型：

# 添加国内镜像源（加速下载）
export OLLAMA_HOST=0.0.0.0:11434
ollama serve &

# 拉取 Qwen3-32B（约 18GB，首次需耐心等待）
ollama pull qwen3:32b

# 验证是否加载成功
ollama list
# 应看到：qwen3:32b latest 17.8 GB ...

启动后，Ollama 默认监听 http://localhost:11434，提供标准 OpenAI 兼容 API。可以用 curl 测试：

curl http://localhost:11434/api/chat -H "Content-Type: application/json" -d '{ "model": "qwen3:32b", "messages": [{"role": "user", "content": "你好，请用一句话介绍你自己"}], "stream": true }'

你会看到逐 token 返回的 JSON 流——这就是后续 WebSocket 要承载的内容源头。

2.3 下载并配置 Clawdbot 网关

Clawdbot 是一个专注'协议桥接'的轻量网关。核心能力：接收 WebSocket 连接；把前端发来的消息转成 Ollama API 格式；把 Ollama 返回的流式响应推回 WebSocket。

从 GitHub Release 下载对应平台二进制（Linux/macOS/Windows）：

# Linux x64 示例
wget https://github.com/clawdbot/clawdbot/releases/download/v0.4.2/clawdbot-linux-amd64
 +x clawdbot-linux-amd64
 clawdbot-linux-amd64 /usr/local/bin/clawdbot

Qwen3-32B 模型部署：使用 Clawdbot 网关实现 WebSocket 长连接