跳到主要内容Moltbot 本地 AI 模型完全独立部署指南 | 极客日志Shell / BashAI算法
Moltbot 本地 AI 模型完全独立部署指南
本地部署 DeepSeek 或通义千问等 AI 模型,并配置 Moltbot 实现离线运行。涵盖 Ollama、vLLM、LM Studio 三种方案,提供硬件要求、安装步骤、API 测试及性能优化建议。支持量化、GPU 加速及多模型负载均衡,适合个人及企业构建私有化 AI 助手系统。
魔尊2.2K 浏览 Moltbot(Clawdbot) 教程 -02- 本地 AI 模型 + Moltbot 完全独立部署指南
从零开始搭建本地 DeepSeek/通义千问模型,配置 Moltbot 实现完全离线的 AI 员工系统
注意: Moltbot 是 Clawdbot 的新名称(2026 年 1 月更名)
🎯 为什么选择本地模型
优势
✅ 完全隐私: 数据不离开本地,100% 掌控
✅ 零成本: 无 API 调用费用,一次投入长期使用
✅ 无限制: 无速率限制,想用多少用多少
✅ 可定制: 可以微调模型适应特定场景
✅ 离线运行: 不依赖网络,随时可用
适用场景
- 🏢 企业内部知识库和助手
- 🔒 敏感数据处理(医疗、法律、金融)
- 🌐 网络不稳定或无网络环境
- 💰 大量 API 调用的成本优化
- 🛠️ 模型研究和开发
🏗️ 架构方案选择
三种主流方案对比
| 方案 | 难度 | 性能 | 推荐场景 |
|---|
| Ollama | ⭐ 简单 | ⭐⭐ 中等 | 个人使用、快速上手 |
| vLLM | ⭐⭐⭐ 较难 | ⭐⭐⭐⭐⭐ 优秀 | 生产环境、高并发 |
| LM Studio | ⭐ 最简单 | ⭐⭐ 中等 | 新手、图形界面爱好者 |
推荐架构
┌─────────────────────────────────────────────┐
│ Moltbot Gateway │
│ (消息路由 + 会话管理) │
└──────────────────┬──────────────────────────┘
│
▼
┌─────────────────────┐
│ OpenAI Compatible │
│ API Endpoint │
│ (localhost:11434) │
└──────────┬──────────┘
│
┌──────────▼──────────┐
│ Ollama / vLLM │
│ (模型推理引擎) │
└──────────┬──────────┘
│
┌──────────▼──────────┐
│ DeepSeek / Qwen │
│ (本地模型文件) │
└─────────────────────┘
💻 硬件要求
最低配置 (7B 模型)
- CPU: 8 核心+
- 内存: 16GB RAM
- 显卡: 无需 GPU (CPU 推理)
- 存储: 50GB 可用空间
- 系统: Linux/macOS/Windows
推荐配置 (14B-72B 模型)
- CPU: 16 核心+ (AMD Ryzen 9 / Intel i9)
- : 32GB+ RAM
内存
显卡: NVIDIA RTX 3060 12GB+ / RTX 4090 24GB存储: 200GB+ SSD系统: Linux (Ubuntu 22.04+)专业配置 (高性能/多用户)
- CPU: AMD EPYC / Intel Xeon
- 内存: 64GB-128GB RAM
- 显卡: NVIDIA A100 40GB/80GB / H100
- 存储: 1TB+ NVMe SSD
- 系统: Ubuntu Server 22.04 LTS
模型大小与硬件对应
| 模型参数 | 最小内存 | 推荐 GPU | 推理速度 |
|---|
| 7B | 8GB | 无 (CPU) | 慢 |
| 14B | 16GB | RTX 3060 12GB | 中等 |
| 32B | 32GB | RTX 4090 24GB | 快 |
| 72B | 64GB | A100 80GB | 很快 |
📦 方案一:Ollama + 本地模型
为什么选择 Ollama?
- ✅ 最简单的部署方式
- ✅ 一键安装运行
- ✅ 自动管理模型下载
- ✅ 原生 OpenAI API 兼容
- ✅ 支持大部分开源模型
第一步:安装 Ollama
macOS
Linux
curl -fsSL https://ollama.ai/install.sh | sh
ollama --version
Windows
第二步:启动 Ollama 服务
sudo systemctl enable ollama
sudo systemctl start ollama
nohup ollama serve > /tmp/ollama.log 2>&1 &
第三步:下载模型
DeepSeek 模型
ollama pull deepseek-r1:7b
ollama pull deepseek-r1:14b
ollama pull deepseek-r1:32b
ollama pull deepseek-r1:70b
ollama pull deepseek-coder:6.7b
通义千问 (Qwen) 模型
ollama pull qwen2.5:7b
ollama pull qwen2.5:14b
ollama pull qwen2.5:32b
ollama pull qwen2.5:72b
ollama pull qwen2.5-coder:7b
其他推荐模型
ollama pull llama3.1:8b
ollama pull llama3.1:70b
ollama pull mistral:7b
ollama pull gemma2:9b
ollama list
第四步:测试模型
ollama run deepseek-r1:7b
>>> 你好,请介绍一下你自己
echo "什么是量子计算?" | ollama run qwen2.5:7b
>>> /bye
第五步:验证 API 服务
curl http://localhost:11434/api/tags
curl http://localhost:11434/api/generate -d '{ "model": "deepseek-r1:7b", "prompt": "为什么天空是蓝色的?", "stream": false }'
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "deepseek-r1:7b", "messages": [ {"role": "user", "content": "你好"} ] }'
🚀 方案二:vLLM 高性能部署
为什么选择 vLLM?
- ✅ 极高的推理性能
- ✅ 支持 PagedAttention
- ✅ 批处理优化
- ✅ 多 GPU 并行
- ✅ 生产环境首选
第一步:环境准备
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install cuda-toolkit-12-4
nvidia-smi
第二步:安装 vLLM
python3 -m venv vllm-env
source vllm-env/bin/activate
pip install vllm
pip install git+https://github.com/vllm-project/vllm.git
第三步:下载模型
sudo apt install git-lfs
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
git clone https://huggingface.co/Qwen/Qwen2.5-7B-Instruct
pip install huggingface_hub
python -c "from huggingface_hub import snapshot_download; snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-7B', local_dir='./models/deepseek-r1-7b')"
第四步:启动 vLLM 服务
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--host 0.0.0.0 \
--port 8000 \
--served-model-name deepseek-r1-7b
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.9 \
--port 8000
python -m vllm.entrypoints.openai.api_server \
--model ./models/qwen2.5-14b \
--tensor-parallel-size 2 \
--port 8000
第五步:高级配置
model: ./models/deepseek-r1-7b
host: 0.0.0.0
port: 8000
served-model-name: deepseek-r1-7b
tensor-parallel-size: 1
gpu-memory-utilization: 0.9
max-num-batched-tokens: 4096
max-num-seqs: 256
quantization: awq
enable-prefix-caching: true
disable-log-stats: false
python -m vllm.entrypoints.openai.api_server \
--config vllm_config.yaml
第六步:后台运行
创建 systemd 服务 /etc/systemd/system/vllm.service:
[Unit]
Description=vLLM OpenAI API Server
After=network.target
[Service]
Type=simple
User=your-username
WorkingDirectory=/home/your-username/vllm
Environment="PATH=/home/your-username/vllm-env/bin"
ExecStart=/home/your-username/vllm-env/bin/python -m vllm.entrypoints.openai.api_server --model ./models/deepseek-r1-7b --port 8000
Restart=always
RestartSec=10
[Install]
WantedBy=multi-user.target
sudo systemctl daemon-reload
sudo systemctl enable vllm
sudo systemctl start vllm
sudo systemctl status vllm
🖥️ 方案三:LM Studio 简易方案
为什么选择 LM Studio?
- ✅ 完全图形化界面
- ✅ 零代码配置
- ✅ 一键下载模型
- ✅ 适合新手
- ✅ 跨平台支持
第一步:下载安装
- Windows
- macOS (Intel/Apple Silicon)
- Linux
第二步:下载模型
- 打开 LM Studio
- 点击左侧 '🔍 Search'
- 搜索模型:
deepseek-r1
qwen2.5
llama-3.1
- 选择合适大小的模型 (7B/14B/32B)
- 点击下载
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B-GGUF
Qwen/Qwen2.5-7B-Instruct-GGUF
第三步:加载模型
- 点击左侧 '💬 Chat'
- 在顶部下拉菜单选择已下载的模型
- 点击 'Load Model'
- 等待模型加载完成
第四步:启动 API 服务器
- 点击左侧 '🔌 Local Server'
- 选择要运行的模型
- 配置端口 (默认 1234)
- 点击 'Start Server'
- 服务器会在
http://localhost:1234 启动
第五步:测试
curl http://localhost:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "deepseek-r1-7b", "messages": [ {"role": "user", "content": "你好"} ] }'
🔧 Moltbot 配置本地模型
方案 A: Ollama (端口 11434)
编辑 ~/.clawdbot/moltbot.json:
{
"agent": {
"model": "ollama/deepseek-r1:7b",
"temperature": 0.7,
"maxTokens": 4096
},
"models": {
"ollama": {
"baseURL": "http://localhost:11434/v1",
"apiKey": "ollama",
"timeout": 120000,
"models": {
"deepseek-r1:7b": {"contextWindow": 8192},
"qwen2.5:7b": {"contextWindow": 32768}
}
}
}
}
方案 B: vLLM (端口 8000)
{
"agent": {
"model": "vllm/deepseek-r1-7b",
"temperature": 0.7,
"maxTokens": 4096
},
"models": {
"vllm": {
"baseURL": "http://localhost:8000/v1",
"apiKey": "vllm-local",
"timeout": 120000,
"models": {
"deepseek-r1-7b": {"contextWindow": 8192}
}
}
}
}
方案 C: LM Studio (端口 1234)
{
"agent": {
"model": "lmstudio/deepseek-r1-7b",
"temperature": 0.7,
"maxTokens": 4096
},
"models": {
"lmstudio": {
"baseURL": "http://localhost:1234/v1",
"apiKey": "lm-studio",
"timeout": 120000
}
}
}
完整配置示例 (支持多个本地模型)
{
"agent": {
"model": "ollama/deepseek-r1:14b",
"temperature": 0.7,
"maxTokens": 4096,
"fallbackModels": ["ollama/qwen2.5:7b", "ollama/llama3.1:8b"],
"workspace": "~/clawd"
},
"models": {
"ollama": {
"baseURL": "http://localhost:11434/v1",
"apiKey": "ollama",
"timeout": 120000,
"retries": 3,
"models": {
"deepseek-r1:7b": {"contextWindow": 8192, "description": "DeepSeek-R1 7B - 推理模型"},
"deepseek-r1:14b": {"contextWindow": 16384, "description": "DeepSeek-R1 14B - 推荐日常使用"},
"qwen2.5:7b": {"contextWindow": 32768, "description": "通义千问 7B - 中文友好"},
"deepseek-coder:6.7b": {"contextWindow": 16384, "description": "DeepSeek-Coder - 代码专用"}
}
}
},
"gateway": {
"port": 18789,
"bind": "loopback"
},
"channels": {
"telegram": {
"botToken": "${TELEGRAM_BOT_TOKEN}"
}
}
}
环境变量配置
OLLAMA_BASE_URL=http://localhost:11434/v1
VLLM_BASE_URL=http://localhost:8000/v1
LMSTUDIO_BASE_URL=http://localhost:1234/v1
TELEGRAM_BOT_TOKEN=your-bot-token
启动 Moltbot
moltbot gateway --port 18789 --verbose
moltbot agent --message "你好,请介绍一下你自己" --model ollama/deepseek-r1:7b
moltbot agent --message "什么是人工智能?" --model ollama/qwen2.5:7b
moltbot agent --message "写一个 Python 快速排序" --model ollama/deepseek-coder:6.7b
⚡ 性能优化
1. 量化模型 (减少内存占用)
Ollama 量化
Ollama 自动下载量化版本,可以选择不同精度:
ollama pull deepseek-r1:7b-q4_0
ollama pull deepseek-r1:7b-q5_0
ollama pull deepseek-r1:7b-q8_0
ollama show deepseek-r1:7b --modelfile
vLLM 量化
python -m vllm.entrypoints.openai.api_server \
--model TheBloke/DeepSeek-R1-7B-AWQ \
--quantization awq \
--port 8000
python -m vllm.entrypoints.openai.api_server \
--model TheBloke/DeepSeek-R1-7B-GPTQ \
--quantization gptq \
--port 8000
2. GPU 加速
Ollama GPU 支持
ollama run deepseek-r1:7b
nvidia-smi
export OLLAMA_GPU_MEMORY_FRACTION=0.8
ollama serve
vLLM GPU 优化
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-14b \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.9
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-70b \
--tensor-parallel-size 4 \
--pipeline-parallel-size 2
3. CPU 优化 (无 GPU 情况)
export OLLAMA_NUM_PARALLEL=4
ollama serve
export OLLAMA_NUM_THREADS=16
ollama serve
export OLLAMA_AVX=2
ollama serve
4. 批处理优化
{
"agent": {
"batching": {
"enabled": true,
"maxBatchSize": 8,
"maxWaitTime": 100
}
}
}
5. 缓存优化
Ollama 缓存
export OLLAMA_MODELS_CACHE_SIZE=10GB
ollama serve
ollama run deepseek-r1:7b --keep-alive 24h
vLLM 缓存
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--enable-prefix-caching \
--max-num-batched-tokens 8192
6. 网络优化
{
"models": {
"ollama": {
"baseURL": "http://localhost:11434/v1",
"timeout": 300000,
"retries": 3,
"retryDelay": 1000,
"keepAlive": true,
"connectionPool": {
"maxConnections": 10,
"keepAliveTimeout": 60000
}
}
}
}
🎛️ 高级配置
1. 多模型负载均衡
{
"agent": {
"loadBalancing": {
"enabled": true,
"strategy": "round-robin",
"models": ["ollama/deepseek-r1:7b", "ollama/qwen2.5:7b", "ollama/llama3.1:8b"]
}
}
}
2. 智能模型选择
{
"agent": {
"modelSelection": {
"enabled": true,
"rules": [
{"condition": "message.length > 1000", "model": "ollama/deepseek-r1:14b"},
{"condition": "message.includes('代码')", "model": "ollama/deepseek-coder:6.7b"},
{"condition": "default", "model": "ollama/qwen2.5:7b"}
]
}
}
}
3. 会话管理优化
{
"agent": {
"sessionPruning": {
"enabled": true,
"maxMessages": 50,
"maxTokens": 16000,
"strategy": "sliding-window"
},
"contextCompression": {
"enabled": true,
"compressionRatio": 0.5
}
}
}
4. 监控和日志
{
"monitoring": {
"enabled": true,
"metrics": {
"port": 9090,
"path": "/metrics"
},
"logging": {
"level": "info",
"modelPerformance": true,
"tokenUsage": true
}
}
}
🔍 性能基准测试
测试脚本
#!/bin/bash
echo "=== Moltbot 本地模型性能测试 ==="
echo "测试 1: 简单问答"
time moltbot agent --message "什么是人工智能?" --model ollama/deepseek-r1:7b
echo "测试 2: 长文本生成"
time moltbot agent --message "写一篇 1000 字关于量子计算的文章" --model ollama/qwen2.5:7b
echo "测试 3: 代码生成"
time moltbot agent --message "写一个 Python 二叉树遍历的完整实现" --model ollama/deepseek-coder:6.7b
echo "测试 4: 并发测试 (10 个并发请求)"
for i in {1..10}; do
moltbot agent --message "测试消息 $i" --model ollama/deepseek-r1:7b &
done
wait
echo "=== 测试完成 ==="
chmod +x benchmark.sh
./benchmark.sh
性能参考数据
| 模型 | 硬件 | Tokens/秒 | 延迟 |
|---|
| DeepSeek-R1 7B | CPU (i9) | 5-10 | 高 |
| DeepSeek-R1 7B | RTX 3060 12GB | 30-50 | 中 |
| DeepSeek-R1 14B | RTX 4090 24GB | 40-60 | 低 |
| Qwen2.5 7B | CPU (Ryzen 9) | 8-15 | 高 |
| Qwen2.5 14B | A100 40GB | 80-120 | 很低 |
🐛 常见问题
1. Ollama 相关
lsof -i :11434
kill -9 <PID>
ollama serve
export OLLAMA_MODELS_MIRROR=https://ollama.your-mirror.com
ollama pull deepseek-r1:7b
ollama create deepseek-r1:7b -f ./Modelfile
ollama pull deepseek-r1:7b-q4_0
ollama pull deepseek-r1:1.5b
2. vLLM 相关
nvidia-smi
pip install vllm-cuda12
python -c "import torch; print(torch.cuda.is_available())"
python -m vllm.entrypoints.openai.api_server \
--model TheBloke/DeepSeek-R1-7B-AWQ \
--quantization awq
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--gpu-memory-utilization 0.7 \
--max-num-batched-tokens 2048
export VLLM_ATTENTION_BACKEND=FLASH_ATTN
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--preload-model
3. Moltbot 集成问题
curl http://localhost:11434/api/tags
cat ~/.clawdbot/moltbot.json | grep baseURL
moltbot agent --message "测试" --model ollama/deepseek-r1:7b --verbose
{
"models": {
"ollama": {
"timeout": 300000,
"retries": 5
}
}
}
ollama list
clawdbot agent --message "测试" --model ollama/deepseek-r1:7b
4. 性能优化问题
ollama pull deepseek-r1:1.5b
ollama pull deepseek-r1:7b-q4_0
export OLLAMA_NUM_THREADS=16
ollama serve
watch -n 1 nvidia-smi
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--max-num-batched-tokens 8192 \
--max-num-seqs 256
5. 模型质量问题
ollama pull deepseek-r1:14b
clawdbot agent --message "你的问题" \
--model ollama/deepseek-r1:14b \
--temperature 0.3
ollama pull qwen2.5:14b
{
"agent": {
"model": "ollama/qwen2.5:14b"
}
}
📊 成本分析
硬件投入对比
| 配置 | 一次性成本 | 适用场景 | 对应云端月费 |
|---|
| CPU 方案 (i9 + 32GB) | ¥5,000 | 个人轻度使用 | ¥200-500 |
| 入门 GPU (RTX 3060) | ¥10,000 | 个人/小团队 | ¥500-1,000 |
| 专业 GPU (RTX 4090) | ¥25,000 | 专业用户 | ¥1,500-3,000 |
| 服务器 (A100 40GB) | ¥80,000 | 企业/多用户 | ¥5,000-10,000 |
ROI 计算
- RTX 4090 方案: 25 个月回本
- RTX 3060 方案: 10 个月回本
- CPU 方案: 5 个月回本
🎯 最佳实践
1. 个人用户推荐方案
Ollama + DeepSeek-R1 7B (Q4) + Clawdbot
- 硬件:CPU (i5/Ryzen 5) + 16GB RAM
- 成本:¥3,000-5,000
- 性能:满足日常使用
{
"agent": {
"model": "ollama/deepseek-r1:7b-q4_0",
"maxTokens": 2048
}
}
2. 专业用户推荐方案
Ollama + DeepSeek-R1 14B + Clawdbot
- 硬件:RTX 3060 12GB + 32GB RAM
- 成本:¥10,000-15,000
- 性能:接近云端 API
{
"agent": {
"model": "ollama/deepseek-r1:14b",
"fallbackModels": ["ollama/qwen2.5:14b"],
"maxTokens": 4096
}
}
3. 企业用户推荐方案
vLLM + DeepSeek-R1 32B/72B + Clawdbot
- 硬件:A100 40GB/80GB + 64GB+ RAM
- 成本:¥50,000-100,000
- 性能:超越云端 API
{
"agent": {
"model": "vllm/deepseek-r1-32b",
"batching": {
"enabled": true,
"maxBatchSize": 16
},
"loadBalancing": {
"enabled": true,
"models": ["vllm/deepseek-r1-32b", "vllm/qwen2.5-32b"]
}
}
}
📚 进阶资源
官方文档
模型资源
🚀 快速开始总结
最快部署 (5 分钟)
curl -fsSL https://ollama.ai/install.sh | sh
ollama pull deepseek-r1:7b
ollama serve &
cat > ~/.clawdbot/moltbot.json <<EOF
{
"agent": {
"model": "ollama/deepseek-r1:7b"
},
"models": {
"ollama": {
"baseURL": "http://localhost:11434/v1",
"apiKey": "ollama"
}
}
}
EOF
moltbot gateway --port 18789 &
moltbot agent --message "你好!"
生产环境部署 (1 小时)
- 选择方案 (Ollama/vLLM/LM Studio)
- 安装配置模型服务
- 性能优化
- 配置 Clawdbot
- 设置后台运行
- 监控和维护
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- 随机西班牙地址生成器
随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
- Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
- Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online