Moltbot 本地 AI 模型完全独立部署指南 | 极客日志

Shell / BashAI算法

Moltbot 本地 AI 模型完全独立部署指南

本地部署 DeepSeek 或通义千问等 AI 模型，并配置 Moltbot 实现离线运行。涵盖 Ollama、vLLM、LM Studio 三种方案，提供硬件要求、安装步骤、API 测试及性能优化建议。支持量化、GPU 加速及多模型负载均衡，适合个人及企业构建私有化 AI 助手系统。

魔尊发布于 2026/2/7更新于 2026/7/262.2K 浏览

Moltbot(Clawdbot) 教程 -02- 本地 AI 模型 + Moltbot 完全独立部署指南

从零开始搭建本地 DeepSeek/通义千问模型，配置 Moltbot 实现完全离线的 AI 员工系统

注意: Moltbot 是 Clawdbot 的新名称（2026 年 1 月更名）

🎯 为什么选择本地模型

优势

✅ 完全隐私: 数据不离开本地，100% 掌控 ✅ 零成本: 无 API 调用费用，一次投入长期使用 ✅ 无限制: 无速率限制，想用多少用多少 ✅ 可定制: 可以微调模型适应特定场景 ✅ 离线运行: 不依赖网络，随时可用

适用场景

🏢 企业内部知识库和助手
🔒 敏感数据处理（医疗、法律、金融）
🌐 网络不稳定或无网络环境
💰 大量 API 调用的成本优化
🛠️ 模型研究和开发

🏗️ 架构方案选择

三种主流方案对比

方案	难度	性能	推荐场景
Ollama	⭐ 简单	⭐⭐ 中等	个人使用、快速上手
vLLM	⭐⭐⭐ 较难	⭐⭐⭐⭐⭐ 优秀	生产环境、高并发
LM Studio	⭐ 最简单	⭐⭐ 中等	新手、图形界面爱好者

💻 硬件要求

最低配置 (7B 模型)

CPU: 8 核心+
内存: 16GB RAM
显卡: 无需 GPU (CPU 推理)
存储: 50GB 可用空间
系统: Linux/macOS/Windows

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

模型参数	最小内存	推荐 GPU	推理速度
7B	8GB	无 (CPU)	慢
14B	16GB	RTX 3060 12GB	中等
32B	32GB	RTX 4090 24GB	快
72B	64GB	A100 80GB	很快

# 使用 Homebrew 安装
brew install ollama
# 或下载安装包
# 访问 https://ollama.ai/download

# 一键安装脚本
curl -fsSL https://ollama.ai/install.sh | sh
# 验证安装
ollama --version

# 下载安装程序
# https://ollama.ai/download/windows
# 或使用 WSL2 + Linux 方法

# 启动 Ollama 服务
ollama serve
# 服务会在 http://localhost:11434 启动

# Linux systemd
sudo systemctl enable ollama
sudo systemctl start ollama
# macOS launchd (自动启动)
# Ollama 会自动配置为开机启动
# 手动后台运行
nohup ollama serve > /tmp/ollama.log 2>&1 &

# DeepSeek-R1:7B (推荐入门)
ollama pull deepseek-r1:7b
# DeepSeek-R1:14B (推荐日常使用)
ollama pull deepseek-r1:14b
# DeepSeek-R1:32B (需要大内存)
ollama pull deepseek-r1:32b
# DeepSeek-R1:70B (完整版，需要强大硬件)
ollama pull deepseek-r1:70b
# DeepSeek-Coder (代码专用)
ollama pull deepseek-coder:6.7b

# Qwen2.5:7B (推荐入门)
ollama pull qwen2.5:7b
# Qwen2.5:14B (推荐日常)
ollama pull qwen2.5:14b
# Qwen2.5:32B (高性能)
ollama pull qwen2.5:32b
# Qwen2.5:72B (完整版)
ollama pull qwen2.5:72b
# Qwen2.5-Coder (代码专用)
ollama pull qwen2.5-coder:7b

# Llama 3.1 (Meta)
ollama pull llama3.1:8b
ollama pull llama3.1:70b
# Mistral (欧洲开源)
ollama pull mistral:7b
# Gemma (Google)
ollama pull gemma2:9b
# 查看已下载模型
ollama list

# 交互式对话测试
ollama run deepseek-r1:7b
# 输入你的问题
>>> 你好，请介绍一下你自己
# 单次请求测试
echo "什么是量子计算？" | ollama run qwen2.5:7b
# 退出交互模式
>>> /bye

# 测试 API 端点
curl http://localhost:11434/api/tags
# 测试生成接口
curl http://localhost:11434/api/generate -d '{ "model": "deepseek-r1:7b", "prompt": "为什么天空是蓝色的？", "stream": false }'
# 测试 OpenAI 兼容接口
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "deepseek-r1:7b", "messages": [ {"role": "user", "content": "你好"} ] }'

# 安装 CUDA (如果有 NVIDIA GPU)
# Ubuntu 22.04
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install cuda-toolkit-12-4
# 验证 CUDA
nvidia-smi

# 创建虚拟环境
python3 -m venv vllm-env
source vllm-env/bin/activate
# 安装 vLLM (需要 Python 3.8+)
pip install vllm
# 或安装最新开发版
pip install git+https://github.com/vllm-project/vllm.git

# 从 HuggingFace 下载 DeepSeek 模型
# 需要先安装 git-lfs
sudo apt install git-lfs
git lfs install
# DeepSeek-R1-7B
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
# 通义千问 Qwen2.5-7B
git clone https://huggingface.co/Qwen/Qwen2.5-7B-Instruct
# 或使用 huggingface_hub
pip install huggingface_hub
python -c "from huggingface_hub import snapshot_download; snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-7B', local_dir='./models/deepseek-r1-7b')"

# 启动 OpenAI 兼容 API 服务器
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--host 0.0.0.0 \
--port 8000 \
--served-model-name deepseek-r1-7b
# GPU 加速启动
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.9 \
--port 8000
# 多 GPU 并行 (例如 2 张 GPU)
python -m vllm.entrypoints.openai.api_server \
--model ./models/qwen2.5-14b \
--tensor-parallel-size 2 \
--port 8000

model: ./models/deepseek-r1-7b
host: 0.0.0.0
port: 8000
served-model-name: deepseek-r1-7b
# GPU 配置
tensor-parallel-size: 1
gpu-memory-utilization: 0.9
# 性能优化
max-num-batched-tokens: 4096
max-num-seqs: 256
# 量化 (减少显存占用)
quantization: awq # 或 gptq
# 其他优化
enable-prefix-caching: true
disable-log-stats: false

python -m vllm.entrypoints.openai.api_server \
--config vllm_config.yaml

[Unit]
Description=vLLM OpenAI API Server
After=network.target

[Service]
Type=simple
User=your-username
WorkingDirectory=/home/your-username/vllm
Environment="PATH=/home/your-username/vllm-env/bin"
ExecStart=/home/your-username/vllm-env/bin/python -m vllm.entrypoints.openai.api_server --model ./models/deepseek-r1-7b --port 8000
Restart=always
RestartSec=10

[Install]
WantedBy=multi-user.target

sudo systemctl daemon-reload
sudo systemctl enable vllm
sudo systemctl start vllm
sudo systemctl status vllm

# 测试 API
curl http://localhost:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "deepseek-r1-7b", "messages": [ {"role": "user", "content": "你好"} ] }'

{
  "agent": {
    "model": "ollama/deepseek-r1:7b",
    "temperature": 0.7,
    "maxTokens": 4096
  },
  "models": {
    "ollama": {
      "baseURL": "http://localhost:11434/v1",
      "apiKey": "ollama",
      "timeout": 120000,
      "models": {
        "deepseek-r1:7b": {"contextWindow": 8192},
        "qwen2.5:7b": {"contextWindow": 32768}
      }
    }
  }
}

{
  "agent": {
    "model": "vllm/deepseek-r1-7b",
    "temperature": 0.7,
    "maxTokens": 4096
  },
  "models": {
    "vllm": {
      "baseURL": "http://localhost:8000/v1",
      "apiKey": "vllm-local",
      "timeout": 120000,
      "models": {
        "deepseek-r1-7b": {"contextWindow": 8192}
      }
    }
  }
}

{
  "agent": {
    "model": "lmstudio/deepseek-r1-7b",
    "temperature": 0.7,
    "maxTokens": 4096
  },
  "models": {
    "lmstudio": {
      "baseURL": "http://localhost:1234/v1",
      "apiKey": "lm-studio",
      "timeout": 120000
    }
  }
}

{
  "agent": {
    "model": "ollama/deepseek-r1:14b",
    "temperature": 0.7,
    "maxTokens": 4096,
    "fallbackModels": ["ollama/qwen2.5:7b", "ollama/llama3.1:8b"],
    "workspace": "~/clawd"
  },
  "models": {
    "ollama": {
      "baseURL": "http://localhost:11434/v1",
      "apiKey": "ollama",
      "timeout": 120000,
      "retries": 3,
      "models": {
        "deepseek-r1:7b": {"contextWindow": 8192, "description": "DeepSeek-R1 7B - 推理模型"},
        "deepseek-r1:14b": {"contextWindow": 16384, "description": "DeepSeek-R1 14B - 推荐日常使用"},
        "qwen2.5:7b": {"contextWindow": 32768, "description": "通义千问 7B - 中文友好"},
        "deepseek-coder:6.7b": {"contextWindow": 16384, "description": "DeepSeek-Coder - 代码专用"}
      }
    }
  },
  "gateway": {
    "port": 18789,
    "bind": "loopback"
  },
  "channels": {
    "telegram": {
      "botToken": "${TELEGRAM_BOT_TOKEN}"
    }
  }
}

# 本地模型配置
OLLAMA_BASE_URL=http://localhost:11434/v1
VLLM_BASE_URL=http://localhost:8000/v1
LMSTUDIO_BASE_URL=http://localhost:1234/v1
# Telegram (可选)
TELEGRAM_BOT_TOKEN=your-bot-token

# 启动网关
moltbot gateway --port 18789 --verbose
# 测试本地模型
moltbot agent --message "你好，请介绍一下你自己" --model ollama/deepseek-r1:7b
# 使用通义千问
moltbot agent --message "什么是人工智能？" --model ollama/qwen2.5:7b
# 代码生成
moltbot agent --message "写一个 Python 快速排序" --model ollama/deepseek-coder:6.7b

# 4-bit 量化 (最省内存)
ollama pull deepseek-r1:7b-q4_0
# 5-bit 量化 (平衡)
ollama pull deepseek-r1:7b-q5_0
# 8-bit 量化 (高质量)
ollama pull deepseek-r1:7b-q8_0
# 查看可用量化版本
ollama show deepseek-r1:7b --modelfile

# 使用 AWQ 量化
python -m vllm.entrypoints.openai.api_server \
--model TheBloke/DeepSeek-R1-7B-AWQ \
--quantization awq \
--port 8000
# 使用 GPTQ 量化
python -m vllm.entrypoints.openai.api_server \
--model TheBloke/DeepSeek-R1-7B-GPTQ \
--quantization gptq \
--port 8000

# 自动使用 GPU (如果可用)
ollama run deepseek-r1:7b
# 查看 GPU 使用情况
nvidia-smi
# 设置 GPU 内存限制
export OLLAMA_GPU_MEMORY_FRACTION=0.8
ollama serve

# 使用多 GPU
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-14b \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.9
# Pipeline 并行 (超大模型)
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-70b \
--tensor-parallel-size 4 \
--pipeline-parallel-size 2

# Ollama CPU 优化
export OLLAMA_NUM_PARALLEL=4
ollama serve
# 设置线程数
export OLLAMA_NUM_THREADS=16
ollama serve
# 使用 AVX2 优化
export OLLAMA_AVX=2
ollama serve

{
  "agent": {
    "batching": {
      "enabled": true,
      "maxBatchSize": 8,
      "maxWaitTime": 100
    }
  }
}

# 设置缓存大小
export OLLAMA_MODELS_CACHE_SIZE=10GB
ollama serve
# 预加载模型
ollama run deepseek-r1:7b --keep-alive 24h

# 启用 KV 缓存
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--enable-prefix-caching \
--max-num-batched-tokens 8192

{
  "models": {
    "ollama": {
      "baseURL": "http://localhost:11434/v1",
      "timeout": 300000,
      "retries": 3,
      "retryDelay": 1000,
      "keepAlive": true,
      "connectionPool": {
        "maxConnections": 10,
        "keepAliveTimeout": 60000
      }
    }
  }
}

{
  "agent": {
    "loadBalancing": {
      "enabled": true,
      "strategy": "round-robin",
      "models": ["ollama/deepseek-r1:7b", "ollama/qwen2.5:7b", "ollama/llama3.1:8b"]
    }
  }
}

{
  "agent": {
    "modelSelection": {
      "enabled": true,
      "rules": [
        {"condition": "message.length > 1000", "model": "ollama/deepseek-r1:14b"},
        {"condition": "message.includes('代码')", "model": "ollama/deepseek-coder:6.7b"},
        {"condition": "default", "model": "ollama/qwen2.5:7b"}
      ]
    }
  }
}

{
  "agent": {
    "sessionPruning": {
      "enabled": true,
      "maxMessages": 50,
      "maxTokens": 16000,
      "strategy": "sliding-window"
    },
    "contextCompression": {
      "enabled": true,
      "compressionRatio": 0.5
    }
  }
}

{
  "monitoring": {
    "enabled": true,
    "metrics": {
      "port": 9090,
      "path": "/metrics"
    },
    "logging": {
      "level": "info",
      "modelPerformance": true,
      "tokenUsage": true
    }
  }
}

#!/bin/bash
echo "=== Moltbot 本地模型性能测试 ==="
# 测试 1: 简单问答
echo "测试 1: 简单问答"
time moltbot agent --message "什么是人工智能？" --model ollama/deepseek-r1:7b
# 测试 2: 长文本生成
echo "测试 2: 长文本生成"
time moltbot agent --message "写一篇 1000 字关于量子计算的文章" --model ollama/qwen2.5:7b
# 测试 3: 代码生成
echo "测试 3: 代码生成"
time moltbot agent --message "写一个 Python 二叉树遍历的完整实现" --model ollama/deepseek-coder:6.7b
# 测试 4: 并发测试
echo "测试 4: 并发测试 (10 个并发请求)"
for i in {1..10}; do
  moltbot agent --message "测试消息 $i" --model ollama/deepseek-r1:7b &
done
wait
echo "=== 测试完成 ==="

chmod +x benchmark.sh
./benchmark.sh

模型	硬件	Tokens/秒	延迟
DeepSeek-R1 7B	CPU (i9)	5-10	高
DeepSeek-R1 7B	RTX 3060 12GB	30-50	中
DeepSeek-R1 14B	RTX 4090 24GB	40-60	低
Qwen2.5 7B	CPU (Ryzen 9)	8-15	高
Qwen2.5 14B	A100 40GB	80-120	很低

# 检查端口占用
lsof -i :11434
# 杀死占用进程
kill -9 <PID>
# 重新启动
ollama serve

# 使用镜像加速
export OLLAMA_MODELS_MIRROR=https://ollama.your-mirror.com
ollama pull deepseek-r1:7b
# 或手动下载后导入
ollama create deepseek-r1:7b -f ./Modelfile

# 使用更小的量化版本
ollama pull deepseek-r1:7b-q4_0
# 或使用更小的模型
ollama pull deepseek-r1:1.5b

# 检查 CUDA 版本
nvidia-smi
# 重新安装对应版本的 vLLM
pip install vllm-cuda12
# 或 vllm-cuda11
# 验证 PyTorch CUDA 支持
python -c "import torch; print(torch.cuda.is_available())"

# 使用量化模型
python -m vllm.entrypoints.openai.api_server \
--model TheBloke/DeepSeek-R1-7B-AWQ \
--quantization awq
# 减少 GPU 内存使用
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--gpu-memory-utilization 0.7 \
--max-num-batched-tokens 2048

# 预加载模型到内存
export VLLM_ATTENTION_BACKEND=FLASH_ATTN
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--preload-model

# 检查模型服务是否运行
curl http://localhost:11434/api/tags
# 检查 Moltbot 配置
cat ~/.clawdbot/moltbot.json | grep baseURL
# 测试连接
moltbot agent --message "测试" --model ollama/deepseek-r1:7b --verbose

{
  "models": {
    "ollama": {
      "timeout": 300000,
      "retries": 5
    }
  }
}

# 列出可用模型
ollama list
# 在 Clawdbot 中使用正确的模型名
clawdbot agent --message "测试" --model ollama/deepseek-r1:7b
# 注意大小写和版本号

# 方案 1: 使用更小的模型
ollama pull deepseek-r1:1.5b
# 方案 2: 使用量化模型
ollama pull deepseek-r1:7b-q4_0
# 方案 3: 增加线程数
export OLLAMA_NUM_THREADS=16
ollama serve
# 方案 4: 考虑购买 GPU

# 监控 GPU 使用
watch -n 1 nvidia-smi
# 增加批处理大小
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--max-num-batched-tokens 8192 \
--max-num-seqs 256

# 使用更大的模型
ollama pull deepseek-r1:14b
# 或 32b
# 调整温度参数
clawdbot agent --message "你的问题" \
--model ollama/deepseek-r1:14b \
--temperature 0.3
# 降低随机性

# 使用中文友好的模型
ollama pull qwen2.5:14b
# 配置为默认模型
{
  "agent": {
    "model": "ollama/qwen2.5:14b"
  }
}

配置	一次性成本	适用场景	对应云端月费
CPU 方案 (i9 + 32GB)	¥5,000	个人轻度使用	¥200-500
入门 GPU (RTX 3060)	¥10,000	个人/小团队	¥500-1,000
专业 GPU (RTX 4090)	¥25,000	专业用户	¥1,500-3,000
服务器 (A100 40GB)	¥80,000	企业/多用户	¥5,000-10,000

Ollama + DeepSeek-R1 7B (Q4) + Clawdbot
- 硬件：CPU (i5/Ryzen 5) + 16GB RAM
- 成本：¥3,000-5,000
- 性能：满足日常使用

{
  "agent": {
    "model": "ollama/deepseek-r1:7b-q4_0",
    "maxTokens": 2048
  }
}

Ollama + DeepSeek-R1 14B + Clawdbot
- 硬件：RTX 3060 12GB + 32GB RAM
- 成本：¥10,000-15,000
- 性能：接近云端 API

{
  "agent": {
    "model": "ollama/deepseek-r1:14b",
    "fallbackModels": ["ollama/qwen2.5:14b"],
    "maxTokens": 4096
  }
}

vLLM + DeepSeek-R1 32B/72B + Clawdbot
- 硬件：A100 40GB/80GB + 64GB+ RAM
- 成本：¥50,000-100,000
- 性能：超越云端 API

{
  "agent": {
    "model": "vllm/deepseek-r1-32b",
    "batching": {
      "enabled": true,
      "maxBatchSize": 16
    },
    "loadBalancing": {
      "enabled": true,
      "models": ["vllm/deepseek-r1-32b", "vllm/qwen2.5-32b"]
    }
  }
}

# 1. 安装 Ollama
curl -fsSL https://ollama.ai/install.sh | sh
# 2. 下载模型
ollama pull deepseek-r1:7b
# 3. 启动服务
ollama serve &
# 4. 配置 Moltbot
cat > ~/.clawdbot/moltbot.json <<EOF
{
  "agent": {
    "model": "ollama/deepseek-r1:7b"
  },
  "models": {
    "ollama": {
      "baseURL": "http://localhost:11434/v1",
      "apiKey": "ollama"
    }
  }
}
EOF
# 5. 启动 Moltbot
moltbot gateway --port 18789 &
# 6. 测试
moltbot agent --message "你好!"

Moltbot 本地 AI 模型完全独立部署指南

Moltbot(Clawdbot) 教程 -02- 本地 AI 模型 + Moltbot 完全独立部署指南

🎯 为什么选择本地模型

优势

适用场景

🏗️ 架构方案选择

三种主流方案对比

推荐架构

💻 硬件要求

最低配置 (7B 模型)

推荐配置 (14B-72B 模型)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

专业配置 (高性能/多用户)

模型大小与硬件对应

📦 方案一：Ollama + 本地模型

为什么选择 Ollama?

第一步：安装 Ollama

macOS

Linux

Windows

第二步：启动 Ollama 服务

第三步：下载模型

DeepSeek 模型

通义千问 (Qwen) 模型

其他推荐模型

第四步：测试模型

第五步：验证 API 服务

🚀 方案二：vLLM 高性能部署

为什么选择 vLLM?

第一步：环境准备

第二步：安装 vLLM

第三步：下载模型

第四步：启动 vLLM 服务

第五步：高级配置

第六步：后台运行

🖥️ 方案三：LM Studio 简易方案

为什么选择 LM Studio?

第一步：下载安装

第二步：下载模型

第三步：加载模型

第四步：启动 API 服务器

第五步：测试

🔧 Moltbot 配置本地模型

方案 A: Ollama (端口 11434)

方案 B: vLLM (端口 8000)

方案 C: LM Studio (端口 1234)

完整配置示例 (支持多个本地模型)

环境变量配置

启动 Moltbot

⚡ 性能优化

1. 量化模型 (减少内存占用)

Ollama 量化

vLLM 量化

2. GPU 加速

Ollama GPU 支持

vLLM GPU 优化

3. CPU 优化 (无 GPU 情况)

4. 批处理优化

5. 缓存优化

Ollama 缓存

vLLM 缓存

6. 网络优化

🎛️ 高级配置

1. 多模型负载均衡

2. 智能模型选择

3. 会话管理优化

4. 监控和日志

🔍 性能基准测试

测试脚本

性能参考数据

🐛 常见问题

1. Ollama 相关

2. vLLM 相关

3. Moltbot 集成问题

4. 性能优化问题

5. 模型质量问题

📊 成本分析

硬件投入对比