Ollama 与 FastGPT 本地私有化大模型部署指南
在数据隐私和成本控制日益重要的今天,本地部署大语言模型(LLM)成为许多开发者和企业的首选方案。本文将详细介绍如何利用 Ollama 作为本地推理引擎,结合 FastGPT 构建智能体工作流,实现完全私有的 AI 应用。
1. 核心工具简介
Ollama
Ollama 是一个开源的轻量级框架,用于在本地运行大型语言模型。它简化了模型的下载、运行和管理过程,支持通过 API 进行交互,兼容多种主流开源模型(如 Llama3, Qwen, Mistral 等)。
FastGPT
FastGPT 是一个基于 LLM 的应用开发平台,提供可视化工作流编排能力。它支持接入本地或云端的 LLM 服务,允许用户快速搭建知识库问答、智能对话机器人等应用场景。
2. 环境准备
- 操作系统:macOS (Apple Silicon/Intel), Linux (Ubuntu/CentOS), Windows 10/11。
- 硬件要求:
- CPU:建议多核处理器。
- 内存:至少 8GB RAM(推荐 16GB+),显存取决于模型大小(4GB+ 可运行量化模型)。
- 磁盘:预留 10GB+ 空间用于存储模型权重。
- 网络:首次拉取模型需要联网。
3. 部署 Ollama 服务
3.1 安装 Ollama
macOS / Linux
使用官方提供的安装脚本:
curl -fsSL https://ollama.com/install.sh | sh
Windows
访问官网下载 .exe 安装包并运行,默认安装路径为 C:\Program Files\Ollama。
3.2 启动服务
安装完成后,Ollama 通常会自动启动后台服务。可通过以下命令检查状态:
ollama serve
默认监听地址为 http://localhost:11434。
3.3 拉取模型
使用命令行拉取所需的开源模型。例如,拉取 Llama3 或 Qwen:
# 拉取 Llama3 8B 版本
ollama pull llama3
# 拉取通义千问
ollama pull qwen:7b
查看已安装的模型列表:
ollama list
4. 配置 FastGPT 连接 Ollama
FastGPT 支持自定义 API 源,可将 Ollama 作为后端模型提供商。
- 获取 Ollama 接口地址:默认为
http://host.docker.internal:11434(若在 Docker 中运行 FastGPT)或http://localhost:11434。 - 在 FastGPT 中添加模型:
- 进入设置页面,选择'模型管理'。
- 添加新模型,类型选择'OpenAI Compatible'或'自定义'。
- 填写 Base URL 为 Ollama 的地址。
- 模型名称填写已拉取的模型名(如 )。


