LLM 大模型部署实战：Ollama、OpenLLM、LocalAI 与 Dify 集成指南 | 极客日志

PythonAI算法

LLM 大模型部署实战：Ollama、OpenLLM、LocalAI 与 Dify 集成指南

综述由AI生成详细阐述了 LLM 大模型的本地化部署方案，涵盖 Ollama、OpenLLM、LocalAI 三种核心工具的安装配置、API 调用及运维管理，并介绍了如何将其集成至 Dify 平台进行应用开发。内容包含一键安装脚本、Systemd 服务配置、Docker 网络设置、环境变量调整及多模型对比分析，旨在帮助开发者构建安全、高效且可控的私有化 AI 基础设施，解决数据隐私与成本问题。

颠三倒四发布于 2025/2/7更新于 2026/6/222 浏览

LLM 大模型部署实战：Ollama、OpenLLM、LocalAI 与 Dify 集成指南

引言

随着大语言模型（LLM）技术的快速发展，数据隐私、成本控制以及响应延迟成为企业和个人用户关注的核心问题。本地化部署大模型能够在保障数据不出域的前提下，实现私有化的智能服务。本文将详细介绍四种主流的本地及混合部署方案：Ollama、OpenLLM、LocalAI 以及基于 Dify 的应用编排，并提供详细的配置步骤与常见问题解决方案。

1. Ollama 部署方案

Ollama 是一个开源框架，专为在本地机器上便捷部署和运行大型语言模型而设计。它简化了 Docker 容器中的部署过程，支持多种操作系统，并提供了简洁的 API 接口。

1.1 安装方式

一键安装脚本

使用官方提供的安装脚本是最快捷的方式。如果遇到证书验证错误（如 error setting certificate verify locations），通常是因为 CA 证书路径配置不正确。

解决方法：

找到或下载 cacert.pem 文件。

设置环境变量指向证书路径：

export CURL_CA_BUNDLE=/path/to/cacert.pem
# 示例：export CURL_CA_BUNDLE=/www/anaconda3/ssl/cacert.pem

执行安装命令：

curl -fsSL https://ollama.com/install.sh | sh

手动安装二进制文件

适用于需要更精细控制环境的场景。

下载 Linux 二进制文件：

sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/bin/ollama
sudo chmod +x /usr/bin/ollama

创建系统用户：

sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama

配置 systemd 服务文件 /etc/systemd/system/ollama.service：

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3

[Install]
WantedBy=default.target

启动服务：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

[Service]
Environment="OLLAMA_HOST=0.0.0.0:7861"
Environment="OLLAMA_MODELS=/www/algorithm/LLM_model/models"

systemctl daemon-reload
systemctl restart ollama

拉取模型：
```
ollama pull llama3.1
ollama pull qwen2
```
运行模型：
```
ollama run llama3.1
```
查看已加载模型：
```
ollama list
```
查看显存占用：
```
ollama ps
nvidia-smi
```

API 测试：

curl http://10.80.2.195:7861/api/chat -d '{
  "model": "llama3.1",
  "messages": [{"role": "user", "content": "why is the sky blue?"}]
}'

网络监听：设置 OLLAMA_HOST=0.0.0.0:7861 允许外部访问。
并发处理：通过 OLLAMA_NUM_PARALLEL 调整并发请求数。
GPU 指定：在多卡环境下，通过 CUDA_VISIBLE_DEVICES 指定 GPU 索引：
```
[Service]
Environment="CUDA_VISIBLE_DEVICES=0,1"
```
模型存活时间：OLLAMA_KEEP_ALIVE 控制模型在内存中的保留时长，设置为 -1 表示永久驻留。

sudo systemctl stop ollama
sudo rm /etc/systemd/system/ollama.service
sudo rm $(which ollama)
sudo rm -r /usr/share/ollama
sudo userdel ollama

pip install openllm
openllm hello

import openllm
client = openllm.client.HTTPClient('http://localhost:3000')
response = client.query('Explain to me the difference between "further" and "farther"')
print(response)

export OPENLLM_ENDPOINT=http://localhost:3000
openllm query 'Explain to me the difference between "further" and "farther"'

克隆仓库并进入目录：

git clone https://github.com/go-skynet/LocalAI
cd LocalAI/examples/langchain-chroma

下载 Demo 模型（示例）：

wget https://huggingface.co/skeskinen/ggml/resolve/main/all-MiniLM-L6-v2/ggml-model-q4_0.bin -O models/bert
wget https://gpt4all.io/models/ggml-gpt4all-j.bin -O models/ggml-gpt4all-j

配置环境变量：
```
mv .env.example .env
```
注意确保 THREADS 变量不超过 CPU 核心数。

docker-compose up -d --build
docker logs -f langchain-chroma-api-1

特性	Ollama	OpenLLM	LocalAI
易用性	极高，单命令安装	高，Python 生态友好	中，依赖 Docker 配置
API 兼容性	原生 API	自定义 SDK	高度兼容 OpenAI
资源占用	低，优化良好	中等	中等，取决于模型
适用场景	个人开发、快速原型	生产环境、多模型管理	需要 OpenAI 兼容接口

LLM 大模型部署实战：Ollama、OpenLLM、LocalAI 与 Dify 集成指南

LLM 大模型部署实战：Ollama、OpenLLM、LocalAI 与 Dify 集成指南

引言

1. Ollama 部署方案

1.1 安装方式

一键安装脚本

手动安装二进制文件

更多推荐文章

相关免费在线工具

离线安装

1.2 存储路径与配置

1.3 常用操作与监控

1.4 高级配置

1.5 卸载与清理

2. OpenLLM 部署方案

2.1 安装与初始化

2.2 支持的模型

2.3 客户端交互

3. LocalAI 部署方案

3.1 环境准备

3.2 启动服务

3.3 模型映射

4. Dify 应用集成

4.1 配置模型供应商

4.2 Docker 网络配置

4.3 多模型管理

5. 方案对比与选型建议

5.1 生产环境最佳实践

6. 常见问题排查

结语

更多推荐文章

相关免费在线工具

LLM 大模型部署实战：Ollama、OpenLLM、LocalAI 与 Dify 集成指南

LLM 大模型部署实战：Ollama、OpenLLM、LocalAI 与 Dify 集成指南

引言

1. Ollama 部署方案

1.1 安装方式

一键安装脚本

手动安装二进制文件

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

离线安装

1.2 存储路径与配置

1.3 常用操作与监控

1.4 高级配置

1.5 卸载与清理

2. OpenLLM 部署方案

2.1 安装与初始化

2.2 支持的模型

2.3 客户端交互

3. LocalAI 部署方案

3.1 环境准备

3.2 启动服务

3.3 模型映射

4. Dify 应用集成

4.1 配置模型供应商

4.2 Docker 网络配置

4.3 多模型管理

5. 方案对比与选型建议

5.1 生产环境最佳实践

6. 常见问题排查

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具