10 分钟构建本地知识库,辅助 ChatGPT 生成回答
本文将从零开始构建本地知识库,从而辅助大语言模型基于私有知识库内容生成更准确的回答。通过结合向量检索与大模型技术,实现企业级或个人级的智能问答系统。
一、核心概念解析
在深入实践之前,我们需要理解支撑该系统的三个核心概念:
- 向量(Vector):将人类的语言(文字、图片、视频等)转换为计算机可识别的数值数组。这种转换使得机器能够理解语义而非仅仅是关键词匹配。
- 向量相似度:计算两个向量之间的数学距离或余弦相似度,表示两种语义内容的相似程度。相似度越高,代表内容越相关。
- 语言大模型特性:具备上下文理解、信息总结和逻辑推理能力。大模型本身知识截止于训练数据,无法获取最新或私有信息。
这三个概念结合起来,就构成了经典的 RAG(Retrieval-Augmented Generation,检索增强生成)公式:向量搜索 + 大模型 = 知识库问答。这种架构既利用了大模型的生成能力,又解决了其知识时效性和私有数据缺失的问题。
二、FastGPT 部署指南
1. 项目介绍
FastGPT 是一个基于 LLM 大语言模型的知识库问答系统,提供开箱即用的数据处理、模型调用等能力。它支持通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景。其核心流程图展示了从数据导入、向量化处理到最终问答生成的完整链路。
官方文档地址:https://doc.fastgpt.in/docs/intro/
2. 环境准备与 Docker 安装
为了快速部署,我们首选使用 Docker 容器化方案。以下以 Windows 系统为例(Linux/Mac 操作类似)。
2.1 安装 Docker Desktop
访问 Docker 官网下载并安装 Docker Desktop for Windows。安装过程中一路点击 Next,完成后重启电脑。启动后,通知栏会出现鲸鱼图标,表示 Docker 守护进程正在运行。
Docker 桌面版通常自带 docker-compose 工具。如果未集成,可前往官网单独下载 Compose 插件。
2.2 目录结构规划
创建一个专用文件夹用于存放配置文件和数据持久化:
# 创建文件夹
mkdir fastgpt
cd fastgpt
在该目录下创建 config.json 和 docker-compose.yml 文件。
3. 配置文件详解
3.1 config.json
此文件控制前端展示及模型参数配置。关键配置项说明如下:
FeConfig: 前端界面配置,如是否显示空聊天、联系信息等。SystemParams: 系统性能参数,包括向量处理最大并发数 (vectorMaxProcess)、QA 处理数 (qaMaxProcess) 等。ChatModels: 定义可用的对话模型列表,包含模型名称、Token 限制、温度参数等。VectorModels: 定义嵌入模型(Embedding Model),用于将文本转为向量。QAModel/ExtractModel/CQModel/QGModel: 分别对应问答、提取、澄清、生成问题等不同环节调用的模型配置。
示例配置内容:
{


