Moltbot 本地 AI 模型 + 完全独立部署指南
介绍如何在本地独立部署 Moltbot(Clawdbot)AI 员工系统。涵盖三种主流方案:Ollama、vLLM 和 LM Studio。内容包括硬件要求、环境安装、模型下载、API 配置、性能优化及常见问题排查。支持 DeepSeek 和通义千问等本地模型,实现数据隐私保护与零成本运行。

介绍如何在本地独立部署 Moltbot(Clawdbot)AI 员工系统。涵盖三种主流方案:Ollama、vLLM 和 LM Studio。内容包括硬件要求、环境安装、模型下载、API 配置、性能优化及常见问题排查。支持 DeepSeek 和通义千问等本地模型,实现数据隐私保护与零成本运行。

从零开始搭建本地 DeepSeek/通义千问模型,配置 Moltbot 实现完全离线的 AI 员工系统
✅ 完全隐私: 数据不离开本地,100% 掌控 ✅ 零成本: 无 API 调用费用,一次投入长期使用 ✅ 无限制: 无速率限制,想用多少用多少 ✅ 可定制: 可以微调模型适应特定场景 ✅ 离线运行: 不依赖网络,随时可用
| 方案 | 难度 | 性能 | 推荐场景 |
|---|---|---|---|
| Ollama | ⭐ 简单 | ⭐⭐ 中等 | 个人使用、快速上手 |
| vLLM | ⭐⭐⭐ 较难 | ⭐⭐⭐⭐⭐ 优秀 | 生产环境、高并发 |
| LM Studio | ⭐ 最简单 | ⭐⭐ 中等 | 新手、图形界面爱好者 |
┌─────────────────────────────────────────────┐
│ Moltbot Gateway │
│ (消息路由 + 会话管理) │
└──────────────────┬──────────────────────────┘
│
▼
┌─────────────────────┐
│ OpenAI Compatible │
│ API Endpoint │
│ (localhost:11434) │
└──────────┬──────────┘
│
┌──────────▼──────────┐
│ Ollama / vLLM │
│ (模型推理引擎) │
└──────────┬──────────┘
│
┌──────────▼──────────┐
│ DeepSeek / Qwen │
│ (本地模型文件) │
└─────────────────────┘
| 模型参数 | 最小内存 | 推荐 GPU | 推理速度 |
|---|---|---|---|
| 7B | 8GB | 无 (CPU) | 慢 |
| 14B | 16GB | RTX 3060 12GB | 中等 |
| 32B | 32GB | RTX 4090 24GB | 快 |
| 72B | 64GB | A100 80GB | 很快 |
# 使用 Homebrew 安装
brew install ollama
# 或下载安装包
# 访问 https://ollama.ai/download
# 一键安装脚本
curl -fsSL https://ollama.ai/install.sh | sh
# 验证安装
ollama --version
# 下载安装程序
# https://ollama.ai/download/windows
# 或使用 WSL2 + Linux 方法
# 启动 Ollama 服务
ollama serve
# 服务会在 http://localhost:11434 启动
后台运行:
# Linux systemd
sudo systemctl enable ollama
sudo systemctl start ollama
# macOS launchd (自动启动)
# Ollama 会自动配置为开机启动
# 手动后台运行
nohup ollama serve > /tmp/ollama.log 2>&1 &
# DeepSeek-R1:7B (推荐入门)
ollama pull deepseek-r1:7b
# DeepSeek-R1:14B (推荐日常使用)
ollama pull deepseek-r1:14b
# DeepSeek-R1:32B (需要大内存)
ollama pull deepseek-r1:32b
# DeepSeek-R1:70B (完整版,需要强大硬件)
ollama pull deepseek-r1:70b
# DeepSeek-Coder (代码专用)
ollama pull deepseek-coder:6.7b
# Qwen2.5:7B (推荐入门)
ollama pull qwen2.5:7b
# Qwen2.5:14B (推荐日常)
ollama pull qwen2.5:14b
# Qwen2.5:32B (高性能)
ollama pull qwen2.5:32b
# Qwen2.5:72B (完整版)
ollama pull qwen2.5:72b
# Qwen2.5-Coder (代码专用)
ollama pull qwen2.5-coder:7b
# Llama 3.1 (Meta)
ollama pull llama3.1:8b
ollama pull llama3.1:70b
# Mistral (欧洲开源)
ollama pull mistral:7b
# Gemma (Google)
ollama pull gemma2:9b
# 查看已下载模型
ollama list
# 交互式对话测试
ollama run deepseek-r1:7b
# 输入你的问题
>>> 你好,请介绍一下你自己
# 单次请求测试
echo "什么是量子计算?" | ollama run qwen2.5:7b
# 退出交互模式
>>> /bye
# 测试 API 端点
curl http://localhost:11434/api/tags
# 测试生成接口
curl http://localhost:11434/api/generate -d '{ "model": "deepseek-r1:7b", "prompt": "为什么天空是蓝色的?", "stream": false }'
# 测试 OpenAI 兼容接口
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "deepseek-r1:7b", "messages": [ {"role": "user", "content": "你好"} ] }'
# 安装 CUDA (如果有 NVIDIA GPU)
# Ubuntu 22.04
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install cuda-toolkit-12-4
# 验证 CUDA
nvidia-smi
# 创建虚拟环境
python3 -m venv vllm-env
source vllm-env/bin/activate
# 安装 vLLM (需要 Python 3.8+)
pip install vllm
# 或安装最新开发版
pip install git+https://github.com/vllm-project/vllm.git
# 从 HuggingFace 下载 DeepSeek 模型
# 需要先安装 git-lfs
sudo apt install git-lfs
git lfs install
# DeepSeek-R1-7B
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
# 通义千问 Qwen2.5-7B
git clone https://huggingface.co/Qwen/Qwen2.5-7B-Instruct
# 或使用 huggingface_hub
pip install huggingface_hub
python -c "from huggingface_hub import snapshot_download; snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-7B', local_dir='./models/deepseek-r1-7b')"
# 启动 OpenAI 兼容 API 服务器
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--host 0.0.0.0 \
--port 8000 \
--served-model-name deepseek-r1-7b
# GPU 加速启动
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.9 \
--port 8000
# 多 GPU 并行 (例如 2 张 GPU)
python -m vllm.entrypoints.openai.api_server \
--model ./models/qwen2.5-14b \
--tensor-parallel-size 2 \
--port 8000
创建 vllm_config.yaml:
model: ./models/deepseek-r1-7b
host: 0.0.0.0
port: 8000
served-model-name: deepseek-r1-7b
# GPU 配置
tensor-parallel-size: 1
gpu-memory-utilization: 0.9
# 性能优化
max-num-batched-tokens: 4096
max-num-seqs: 256
# 量化 (减少显存占用)
quantization: awq # 或 gptq
# 其他优化
enable-prefix-caching: true
disable-log-stats: false
启动:
python -m vllm.entrypoints.openai.api_server \
--config vllm_config.yaml
创建 systemd 服务 /etc/systemd/system/vllm.service:
[Unit]
Description=vLLM OpenAI API Server
After=network.target
[Service]
Type=simple
User=your-username
WorkingDirectory=/home/your-username/vllm
Environment="PATH=/home/your-username/vllm-env/bin"
ExecStart=/home/your-username/vllm-env/bin/python -m vllm.entrypoints.openai.api_server --model ./models/deepseek-r1-7b --port 8000
Restart=always
RestartSec=10
[Install]
WantedBy=multi-user.target
启动服务:
sudo systemctl daemon-reload
sudo systemctl enable vllm
sudo systemctl start vllm
sudo systemctl status vllm
访问 LM Studio 官网下载对应平台版本:
deepseek-r1qwen2.5llama-3.1推荐模型:
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B-GGUFQwen/Qwen2.5-7B-Instruct-GGUFhttp://localhost:1234 启动# 测试 API
curl http://localhost:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "deepseek-r1-7b", "messages": [ {"role": "user", "content": "你好"} ] }'
编辑 ~/.clawdbot/moltbot.json:
{"agent":{"model":"ollama/deepseek-r1:7b","temperature":0.7,"maxTokens":4096},"models":{"ollama":{"baseURL":"http://localhost:11434/v1","apiKey":"ollama","timeout":120000,"models":{"deepseek-r1:7b":{"contextWindow":8192},"qwen2.5:7b":{"contextWindow":32768}}}}}
{"agent":{"model":"vllm/deepseek-r1-7b","temperature":0.7,"maxTokens":4096},"models":{"vllm":{"baseURL":"http://localhost:8000/v1","apiKey":"vllm-local","timeout":120000,"models":{"deepseek-r1-7b":{"contextWindow":8192}}}}}
{"agent":{"model":"lmstudio/deepseek-r1-7b","temperature":0.7,"maxTokens":4096},"models":{"lmstudio":{"baseURL":"http://localhost:1234/v1","apiKey":"lm-studio","timeout":120000}}}
{"agent":{"model":"ollama/deepseek-r1:14b","temperature":0.7,"maxTokens":4096,"fallbackModels":["ollama/qwen2.5:7b","ollama/llama3.1:8b"],"workspace":"~/clawd"},"models":{"ollama":{"baseURL":"http://localhost:11434/v1","apiKey":"ollama","timeout":120000,"retries":3,"models":{"deepseek-r1:7b":{"contextWindow":8192
创建 ~/.clawdbot/.env:
# 本地模型配置
OLLAMA_BASE_URL=http://localhost:11434/v1
VLLM_BASE_URL=http://localhost:8000/v1
LMSTUDIO_BASE_URL=http://localhost:1234/v1
# Telegram (可选)
TELEGRAM_BOT_TOKEN=your-bot-token
# 启动网关
moltbot gateway --port 18789 --verbose
# 测试本地模型
moltbot agent --message "你好,请介绍一下你自己" --model ollama/deepseek-r1:7b
# 使用通义千问
moltbot agent --message "什么是人工智能?" --model ollama/qwen2.5:7b
# 代码生成
moltbot agent --message "写一个 Python 快速排序" --model ollama/deepseek-coder:6.7b
Ollama 自动下载量化版本,可以选择不同精度:
# 4-bit 量化 (最省内存)
ollama pull deepseek-r1:7b-q4_0
# 5-bit 量化 (平衡)
ollama pull deepseek-r1:7b-q5_0
# 8-bit 量化 (高质量)
ollama pull deepseek-r1:7b-q8_0
# 查看可用量化版本
ollama show deepseek-r1:7b --modelfile
# 使用 AWQ 量化
python -m vllm.entrypoints.openai.api_server \
--model TheBloke/DeepSeek-R1-7B-AWQ \
--quantization awq \
--port 8000
# 使用 GPTQ 量化
python -m vllm.entrypoints.openai.api_server \
--model TheBloke/DeepSeek-R1-7B-GPTQ \
--quantization gptq \
--port 8000
# 自动使用 GPU (如果可用)
ollama run deepseek-r1:7b
# 查看 GPU 使用情况
nvidia-smi
# 设置 GPU 内存限制
OLLAMA_GPU_MEMORY_FRACTION=0.8 ollama serve
# 使用多 GPU
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-14b \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.9
# Pipeline 并行 (超大模型)
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-70b \
--tensor-parallel-size 4 \
--pipeline-parallel-size 2
# Ollama CPU 优化
OLLAMA_NUM_PARALLEL=4 ollama serve
# 设置线程数
OLLAMA_NUM_THREADS=16 ollama serve
# 使用 AVX2 优化
OLLAMA_AVX=2 ollama serve
Clawdbot 配置:
{"agent":{"batching":{"enabled":true,"maxBatchSize":8,"maxWaitTime":100}}}
# 设置缓存大小
OLLAMA_MODELS_CACHE_SIZE=10GB ollama serve
# 预加载模型
ollama run deepseek-r1:7b --keep-alive 24h
# 启用 KV 缓存
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--enable-prefix-caching \
--max-num-batched-tokens 8192
{"models":{"ollama":{"baseURL":"http://localhost:11434/v1","timeout":300000,"retries":3,"retryDelay":1000,"keepAlive":true,"connectionPool":{"maxConnections":10,"keepAliveTimeout":60000}}}}
{"agent":{"loadBalancing":{"enabled":true,"strategy":"round-robin","models":["ollama/deepseek-r1:7b","ollama/qwen2.5:7b","ollama/llama3.1:8b"]}}}
{"agent":{"modelSelection":{"enabled":true,"rules":[{"condition":"message.length > 1000","model":"ollama/deepseek-r1:14b"},{"condition":"message.includes('代码')","model":"ollama/deepseek-coder:6.7b"},{"condition":"default","model":"ollama/qwen2.5:7b"}]}}}
{"agent":{"sessionPruning":{"enabled":true,"maxMessages":50,"maxTokens":16000,"strategy":"sliding-window"},"contextCompression":{"enabled":true,"compressionRatio":0.5}}}
{"monitoring":{"enabled":true,"metrics":{"port":9090,"path":"/metrics"},"logging":{"level":"info","modelPerformance":true,"tokenUsage":true}}}
创建 benchmark.sh:
#!/bin/bash
echo "=== Moltbot 本地模型性能测试 ==="
# 测试 1: 简单问答
echo "测试 1: 简单问答"
time moltbot agent --message "什么是人工智能?" --model ollama/deepseek-r1:7b
# 测试 2: 长文本生成
echo "测试 2: 长文本生成"
time moltbot agent --message "写一篇 1000 字关于量子计算的文章" --model ollama/qwen2.5:7b
# 测试 3: 代码生成
echo "测试 3: 代码生成"
time moltbot agent --message "写一个 Python 二叉树遍历的完整实现" --model ollama/deepseek-coder:6.7b
# 测试 4: 并发测试
echo "测试 4: 并发测试 (10 个并发请求)"
for i in {1..10}; do
moltbot agent --message "测试消息 $i" --model ollama/deepseek-r1:7b &
done
wait
echo "=== 测试完成 ==="
运行测试:
chmod +x benchmark.sh
./benchmark.sh
| 模型 | 硬件 | Tokens/秒 | 延迟 |
|---|---|---|---|
| DeepSeek-R1 7B | CPU (i9) | 5-10 | 高 |
| DeepSeek-R1 7B | RTX 3060 12GB | 30-50 | 中 |
| DeepSeek-R1 14B | RTX 4090 24GB | 40-60 | 低 |
| Qwen2.5 7B | CPU (Ryzen 9) | 8-15 | 高 |
| Qwen2.5 14B | A100 40GB | 80-120 | 很低 |
Q: Ollama 服务启动失败
# 检查端口占用
lsof -i :11434
# 杀死占用进程
kill -9 <PID>
# 重新启动
ollama serve
Q: 模型下载慢
# 使用镜像加速
export OLLAMA_MODELS_MIRROR=https://ollama.your-mirror.com
ollama pull deepseek-r1:7b
# 或手动下载后导入
ollama create deepseek-r1:7b -f ./Modelfile
Q: 内存不足
# 使用更小的量化版本
ollama pull deepseek-r1:7b-q4_0
# 或使用更小的模型
ollama pull deepseek-r1:1.5b
Q: CUDA 错误
# 检查 CUDA 版本
nvidia-smi
# 重新安装对应版本的 vLLM
pip install vllm-cuda12
# 或 vllm-cuda11
# 验证 PyTorch CUDA 支持
python -c "import torch; print(torch.cuda.is_available())"
Q: 显存不足
# 使用量化模型
python -m vllm.entrypoints.openai.api_server \
--model TheBloke/DeepSeek-R1-7B-AWQ \
--quantization awq
# 减少 GPU 内存使用
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--gpu-memory-utilization 0.7 \
--max-num-batched-tokens 2048
Q: 模型加载慢
# 预加载模型到内存
export VLLM_ATTENTION_BACKEND=FLASH_ATTN
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--preload-model
Q: 连接本地模型失败
# 检查模型服务是否运行
curl http://localhost:11434/api/tags
# 检查 Moltbot 配置
cat ~/.clawdbot/moltbot.json | grep baseURL
# 测试连接
moltbot agent --message "测试" --model ollama/deepseek-r1:7b --verbose
Q: 响应超时
{"models":{"ollama":{"timeout":300000, // 增加到 5 分钟
"retries":5}}}
Q: 模型选择错误
# 列出可用模型
ollama list
# 在 Clawdbot 中使用正确的模型名
clawdbot agent --message "测试" --model ollama/deepseek-r1:7b
# 注意大小写和版本号
Q: CPU 推理太慢
# 方案 1: 使用更小的模型
ollama pull deepseek-r1:1.5b
# 方案 2: 使用量化模型
ollama pull deepseek-r1:7b-q4_0
# 方案 3: 增加线程数
OLLAMA_NUM_THREADS=16 ollama serve
# 方案 4: 考虑购买 GPU
Q: GPU 利用率低
# 监控 GPU 使用
watch -n 1 nvidia-smi
# 增加批处理大小
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--max-num-batched-tokens 8192 \
--max-num-seqs 256
Q: 回答质量不如云端 API
# 使用更大的模型
ollama pull deepseek-r1:14b
# 或 32b
# 调整温度参数
clawdbot agent --message "你的问题" \
--model ollama/deepseek-r1:14b \
--temperature 0.3
# 降低随机性
Q: 中文支持不好
# 使用中文友好的模型
ollama pull qwen2.5:14b
# 配置为默认模型
{"agent":{"model":"ollama/qwen2.5:14b"}}
| 配置 | 一次性成本 | 适用场景 | 对应云端月费 |
|---|---|---|---|
| CPU 方案 (i9 + 32GB) | ¥5,000 | 个人轻度使用 | ¥200-500 |
| 入门 GPU (RTX 3060) | ¥10,000 | 个人/小团队 | ¥500-1,000 |
| 专业 GPU (RTX 4090) | ¥25,000 | 专业用户 | ¥1,500-3,000 |
| 服务器 (A100 40GB) | ¥80,000 | 企业/多用户 | ¥5,000-10,000 |
假设月均 API 调用费用 ¥1,000:
结论: 对于中长期使用,本地部署性价比更高!
Ollama + DeepSeek-R1 7B (Q4) + Clawdbot
- 硬件:CPU (i5/Ryzen 5) + 16GB RAM
- 成本:¥3,000-5,000
- 性能:满足日常使用
配置:
{"agent":{"model":"ollama/deepseek-r1:7b-q4_0","maxTokens":2048}}
Ollama + DeepSeek-R1 14B + Clawdbot
- 硬件:RTX 3060 12GB + 32GB RAM
- 成本:¥10,000-15,000
- 性能:接近云端 API
配置:
{"agent":{"model":"ollama/deepseek-r1:14b","fallbackModels":["ollama/qwen2.5:14b"],"maxTokens":4096}}
vLLM + DeepSeek-R1 32B/72B + Clawdbot
- 硬件:A100 40GB/80GB + 64GB+ RAM
- 成本:¥50,000-100,000
- 性能:超越云端 API
配置:
{"agent":{"model":"vllm/deepseek-r1-32b","batching":{"enabled":true,"maxBatchSize":16},"loadBalancing":{"enabled":true,"models":["vllm/deepseek-r1-32b","vllm/qwen2.5-32b"]}}}
# 1. 安装 Ollama
curl -fsSL https://ollama.ai/install.sh | sh
# 2. 下载模型
ollama pull deepseek-r1:7b
# 3. 启动服务
ollama serve &
# 4. 配置 Moltbot
cat > ~/.clawdbot/moltbot.json <<EOF
{ "agent": { "model": "ollama/deepseek-r1:7b" }, "models": { "ollama": { "baseURL": "http://localhost:11434/v1", "apiKey": "ollama" } } }
EOF
# 5. 启动 Moltbot
moltbot gateway --port 18789 &
# 6. 测试
moltbot agent --message "你好!"
参考本文档:

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online