本地部署 LLM 的几种实用方案 | 极客日志

Shell / BashSaaSAI

本地部署 LLM 的几种实用方案

本地部署 LLM 主要围绕隐私、成本和延迟三个现实问题展开。文章对比了 Ollama、OpenLLM、LocalAI 和 Dify：Ollama 适合快速安装和本地试跑，OpenLLM 更偏服务化管理，LocalAI 强在 OpenAI 接口兼容，Dify 则用于把本地模型编排成应用。正文给出了安装、systemd、模型存储、API 测试、Docker 网络和常见排障要点，也补充了生产环境里常见的安全、资源隔离和监控建议。

颠三倒四发布于 2026/6/30更新于 2026/7/22 浏览

本地部署 LLM 的几种实用方案

把大模型放到本地，通常不是为了'更酷'，而是为了几件很现实的事：数据别出域、费用可控、响应尽量稳定。真要落地，选型往往比部署本身更费时间。Ollama、OpenLLM、LocalAI 和 Dify 这几套方案，解决的问题不一样，混着用也很常见。

Ollama：上手最快的一种

Ollama 更像是把'跑模型'这件事收敛成了少量命令。对于个人机器、实验环境、快速验证，它省掉了很多容器和脚本层面的麻烦。

安装

官方脚本是最快的入口。如果安装时碰到 error setting certificate verify locations，通常不是 Ollama 本身的问题，而是本机 CA 证书路径没配对。

先把证书路径指过去，再执行安装：

export CURL_CA_BUNDLE=/path/to/cacert.pem
# 示例：export CURL_CA_BUNDLE=/www/anaconda3/ssl/cacert.pem
curl -fsSL https://ollama.com/install.sh | sh

如果你更想把环境握在自己手里，直接装二进制也行：

sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/bin/ollama
sudo chmod +x /usr/bin/ollama

接着建系统用户，挂到 systemd 里：

sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3

[Install]
WantedBy=default.target

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama
journalctl -u ollama

离线环境也能做，思路就是先在能联网的机器下载对应架构的安装包，再拷到目标机，后面的步骤不变。

模型存储和监听地址

模型默认落盘位置会因系统不同而变化：

macOS: ~/.ollama/models
Linux: /usr/share/ollama/.ollama/models
Windows:

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

C:\Users\.ollama\models

[Service]
Environment="OLLAMA_HOST=0.0.0.0:7861"
Environment="OLLAMA_MODELS=/www/algorithm/LLM_model/models"

systemctl daemon-reload
systemctl restart ollama

ollama pull llama3.1
ollama pull qwen2
ollama run llama3.1
ollama list
ollama ps
nvidia-smi

curl http://10.80.2.195:7861/api/chat -d '{
  "model": "llama3.1",
  "messages": [{"role": "user", "content": "why is the sky blue?"}]
}'

sudo systemctl stop ollama
sudo rm /etc/systemd/system/ollama.service
sudo rm $(which ollama)
sudo rm -r /usr/share/ollama
sudo userdel ollama

pip install openllm
openllm hello

import openllm
client = openllm.client.HTTPClient('http://localhost:3000')
response = client.query('Explain to me the difference between "further" and "farther"')
print(response)

export OPENLLM_ENDPOINT=http://localhost:3000
openllm query 'Explain to me the difference between "further" and "farther"'

git clone https://github.com/go-skynet/LocalAI
cd LocalAI/examples/langchain-chroma

wget https://huggingface.co/skeskinen/ggml/resolve/main/all-MiniLM-L6-v2/ggml-model-q4_0.bin -O models/bert
wget https://gpt4all.io/models/ggml-gpt4all-j.bin -O models/ggml-gpt4all-j

mv .env.example .env

docker-compose up -d --build
docker logs -f langchain-chroma-api-1

特性	Ollama	OpenLLM	LocalAI
易用性	极高，单命令安装	高，Python 生态友好	中，依赖 Docker 配置
API 兼容性	原生 API	自定义 SDK	高度兼容 OpenAI
资源占用	低，优化良好	中等	中等，取决于模型
适用场景	个人开发、快速原型	生产环境、多模型管理	需要 OpenAI 兼容接口

本地部署 LLM 的几种实用方案

本地部署 LLM 的几种实用方案

Ollama：上手最快的一种

安装

模型存储和监听地址

更多推荐文章

相关免费在线工具

常用命令

一些常见配置

卸载

OpenLLM：更偏服务化的管理方式

LocalAI：兼容 OpenAI 接口这点很实用

环境准备

启动

模型映射

Dify：把模型服务串成应用

配置模型供应商

Docker 网络

多模型管理

怎么选

生产环境里更实际的几件事

排障时先看这些

结尾

更多推荐文章

相关免费在线工具

本地部署 LLM 的几种实用方案

本地部署 LLM 的几种实用方案

Ollama：上手最快的一种

安装

模型存储和监听地址

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

常用命令

一些常见配置

卸载

OpenLLM：更偏服务化的管理方式

LocalAI：兼容 OpenAI 接口这点很实用

环境准备

启动

模型映射

Dify：把模型服务串成应用

配置模型供应商

Docker 网络

多模型管理

怎么选

生产环境里更实际的几件事

排障时先看这些

结尾

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具