私有化部署 FastGPT+OneAPI 构建大模型知识库

写在前面

本文旨在通过实操完成 RAG（检索增强生成）方向开源产品的私有化部署，帮助开发者理解 RAG 技术原理，为未来大模型应用开发打下基础。文章将详细介绍如何结合 FastGPT 与 OneAPI 搭建本地知识库系统。

环境准备

服务器：Linux 服务器（Windows 也可，但推荐 Linux 环境）。
容器环境：安装 Docker 及 Docker Compose 指令。
模型账号：准备 GPT 账号（如 Azure 账号），OneAPI 支持多类大模型账号接入。
网络：确保服务器可访问 GitHub 或阿里云镜像仓库。

RAG 技术原理简介

RAG（Retrieval-Augmented Generation）是一种检索增强生成的技术。其核心逻辑是'检索 + 生成'：

检索：利用向量数据库的高效存储和检索能力，召回与用户问题相关的知识片段。
生成：利用大语言模型（LLM）和 Prompt 工程，将召回的知识作为上下文注入 Prompt，引导模型生成准确答案。

RAG 架构包含两个阶段：

数据准备阶段：将私域数据清洗、分块、向量化后构建索引并存入数据库。
应用阶段：用户提问 -> 数据检索（召回）-> 注入 Prompt -> LLM 生成答案。

FastGPT 服务部署

FastGPT 是一个基于 LLM 大语言模型的知识库问答系统，提供开箱即用的数据处理、模型调用等能力。支持 Flow 可视化工作流编排。这里采用 Docker Compose 方式进行私有化部署。

1. 下载配置文件

在目标目录下创建文件夹并拉取官方配置：

mkdir fastgpt
cd fastgpt
curl -O https://raw.githubusercontent.com/labring/FastGPT/main/files/deploy/fastgpt/docker-compose.yml
curl -O https://raw.githubusercontent.com/labring/FastGPT/main/projects/app/data/config.json

2. 启动容器服务

编辑 docker-compose.yml 文件，根据实际需求修改端口映射（生产环境建议不要暴露数据库端口）。

关键配置说明：

PostgreSQL (pg): 用于存储业务数据，需设置 POSTGRES_USER 和 POSTGRES_PASSWORD。
MongoDB (mongo): 用于存储会话和日志，需设置 MONGO_INITDB_ROOT_USERNAME 和 MONGO_INITDB_ROOT_PASSWORD。
FastGPT App: 主服务，依赖 mongo 和 pg，需配置环境变量。

启动命令：

docker-compose pull
docker-compose up -d

3. 访问服务

服务启动成功后，可通过 http://ip:3000 访问管理后台。默认 root 密码可在 docker-compose.yml 中配置（如 DEFAULT_ROOT_PSW=1234）。

One-API 服务部署

One-API 作为大模型服务代理，支持国内外主流大模型服务，对外提供 OpenAI 规范的 API。它解决了直接调用多个厂商 API 的复杂性问题，统一管理密钥和配额。

1. 部署 One-API

使用 Docker Compose 部署 One-API：

mkdir /oneapi
cp docker-compose.yml /oneapi
cd /oneapi
docker-compose up -d

注意修改文件中指定端口以避免与 FastGPT 冲突。

2. 配置渠道与令牌

登录 One-API 控制台。
点击'渠道'，添加您的 GPT 账号信息（如 Azure、OpenAI 等）。
点击'测试'验证连接是否可用。
点击'令牌'，创建新的 Token，用于后续配置到 FastGPT。
复制 Token（格式通常为 sk-xxxx）。

3. 配置 FastGPT 对接 One-API

在 FastGPT 的 docker-compose.yml 环境变量中配置 One-API 地址和 Key：

environment:
  - OPENAI_BASE_URL=http://ip:端口/v1
  - CHAT_API_KEY=sk-xxxx

同时需要修改 config.json 文件，确保模型名称与 One-API 渠道中的模型名称对应，否则请求会失败。

config.json 关键配置项说明

ChatModels: 聊天模型配置，定义模型名称、最大上下文、价格等。
VectorModels: 向量模型配置，用于文本向量化，如 text-embedding-ada-002 或私有化 M3E。
QAModels: 问答模型配置。
CQModels: 客服问答模型配置。
ExtractModels: 提取模型配置。

示例配置片段：

{
  "SystemParams": {
    "pluginBaseUrl": "",
    "vectorMaxProcess": 15,
    "qaMaxProcess": 15,
    "pgHNSWEfSearch": 100
  },
  "ChatModels": [
    {
      "model": "gpt-3.5-turbo",
      "name": "GPT35-turbo",
      "price": 0,
      "maxContext": 16000,
      "maxResponse": 4000
    }
  ]
}

重启 FastGPT 服务使配置生效：

cd /fastgpt
docker-compose restart

私有化 M3E 向量模型

考虑到成本、安全和转换性能，建议使用 M3E 向量模型进行私有化部署。向量模型属于小模型，CPU 即可运行。

1. 部署向量模型服务

创建 m3e-docker-compose.yml 并启动：

version: '1'
services:
  m3e:
    image: registry.cn-hangzhou.aliyuncs.com/fastgpt_docker/m3e-large-api:latest
    restart: no
    ports:
      - "6008:6008"

2. 接入 One-API

3. 接入 FastGPT

修改 FastGPT config.json 的 VectorModels 部分，加入 M3E 模型配置：

"VectorModels": [
  {
    "model": "m3e",
    "name": "M3E（测试使用）",
    "price": 0.1,
    "defaultToken": 500,
    "maxToken": 1800
  }
]

4. 测试效果

在 FastGPT 中创建知识库，选择 M3E 模型，导入文档数据，并进行搜索测试，验证向量召回效果。

常见问题与排查

1. 端口冲突

如果 5432、27017 或 3000 端口被占用，请在 docker-compose.yml 中修改 ports 映射关系，例如 - 5433:5432。

2. 数据库连接失败

检查 MONGODB_URI 和 PG_URL 中的用户名密码是否与 docker-compose.yml 中定义的 environment 一致。注意 MongoDB 连接字符串中的 authSource=admin 可能需要调整。

3. 模型请求超时

确认 One-API 服务与 FastGPT 服务在同一网络下（通常通过 Docker Network 自动互通）。如果是跨主机部署，需确保防火墙开放相应端口，且 OPENAI_BASE_URL 填写正确的内网 IP。

4. 向量模型加载慢

M3E 模型首次启动可能较慢，这是正常现象。若 CPU 资源不足，可考虑增加内存或使用 GPU 加速。

安全最佳实践

修改默认密码：务必修改 docker-compose.yml 中的 DEFAULT_ROOT_PSW、数据库密码等敏感信息。
限制端口暴露：生产环境中，数据库端口（5432, 27017）不应暴露在公网，仅允许 FastGPT 容器访问。
HTTPS 配置：建议在 Nginx 层配置 SSL 证书，保护数据传输安全。
定期备份：对 ./pg/data 和 ./mongo/data 卷进行定期快照或备份，防止数据丢失。

总结

通过上述步骤，您可以成功搭建一套基于 FastGPT 和 OneAPI 的私有化大模型知识库系统。该系统支持多种模型接入，具备完善的向量检索能力，适用于企业内部知识管理、智能客服等多种场景。

私有化部署 FastGPT+OneAPI 构建大模型知识库