Ollama 与 FastGPT 本地私有化大模型部署指南

在数据隐私和成本控制日益重要的今天，本地部署大语言模型（LLM）成为许多开发者和企业的首选方案。本文将详细介绍如何利用 Ollama 作为本地推理引擎，结合 FastGPT 构建智能体工作流，实现完全私有的 AI 应用。

1. 核心工具简介

Ollama

Ollama 是一个开源的轻量级框架，用于在本地运行大型语言模型。它简化了模型的下载、运行和管理过程，支持通过 API 进行交互，兼容多种主流开源模型（如 Llama3, Qwen, Mistral 等）。

FastGPT

FastGPT 是一个基于 LLM 的应用开发平台，提供可视化工作流编排能力。它支持接入本地或云端的 LLM 服务，允许用户快速搭建知识库问答、智能对话机器人等应用场景。

2. 环境准备

操作系统：macOS (Apple Silicon/Intel), Linux (Ubuntu/CentOS), Windows 10/11。
硬件要求：
- CPU：建议多核处理器。
- 内存：至少 8GB RAM（推荐 16GB+），显存取决于模型大小（4GB+ 可运行量化模型）。
- 磁盘：预留 10GB+ 空间用于存储模型权重。
网络：首次拉取模型需要联网。

3. 部署 Ollama 服务

3.1 安装 Ollama

macOS / Linux

使用官方提供的安装脚本：

curl -fsSL https://ollama.com/install.sh | sh

Windows

访问官网下载 .exe 安装包并运行，默认安装路径为 C:\Program Files\Ollama。

3.2 启动服务

安装完成后，Ollama 通常会自动启动后台服务。可通过以下命令检查状态：

ollama serve

默认监听地址为 http://localhost:11434。

3.3 拉取模型

使用命令行拉取所需的开源模型。例如，拉取 Llama3 或 Qwen：

# 拉取 Llama3 8B 版本
ollama pull llama3

# 拉取通义千问
ollama pull qwen:7b

查看已安装的模型列表：

ollama list

4. 配置 FastGPT 连接 Ollama

FastGPT 支持自定义 API 源，可将 Ollama 作为后端模型提供商。

获取 Ollama 接口地址：默认为 http://host.docker.internal:11434（若在 Docker 中运行 FastGPT）或 http://localhost:11434。
在 FastGPT 中添加模型：
- 进入设置页面，选择'模型管理'。
- 添加新模型，类型选择'OpenAI Compatible'或'自定义'。
- 填写 Base URL 为 Ollama 的地址。

Ollama 与 FastGPT 本地私有化大模型部署指南