Linux 部署本地 AI 大模型与知识库集成指南
本文介绍了在 Linux 环境下从零部署本地 AI 大模型的完整流程。首先通过 Docker 和 Docker Compose 快速搭建 FastGPT 和 OneAPI 服务,配置第三方模型进行初步测试。随后安装 Ollama 并下载本地大模型,将其接入 OneAPI 实现本地推理。最后部署 M3E 向量模型,完成本地知识库的构建与 RAG(检索增强生成)功能验证,实现了基于私有数据的智能问答。

本文介绍了在 Linux 环境下从零部署本地 AI 大模型的完整流程。首先通过 Docker 和 Docker Compose 快速搭建 FastGPT 和 OneAPI 服务,配置第三方模型进行初步测试。随后安装 Ollama 并下载本地大模型,将其接入 OneAPI 实现本地推理。最后部署 M3E 向量模型,完成本地知识库的构建与 RAG(检索增强生成)功能验证,实现了基于私有数据的智能问答。

已安装有 Docker 的话跳过这一步
执行命令安装 Docker(一行一行执行)
curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun
systemctl enable --now docker
执行命令安装 Docker Compose(速度会比较慢)
curl -L https://github.com/docker/compose/releases/download/v2.20.3/docker-compose-`uname -s`-`uname -m` -o /usr/local/bin/docker-compose
chmod +x /usr/local/bin/docker-compose
如果 GitHub 很慢可以把地址替换成镜像站
curl -L https://hub.nuaa.cf/docker/compose/releases/download/v2.20.3/docker-compose-`uname -s`-`uname -m` -o /usr/local/bin/docker-compose
等待安装结束后,执行命令启动 Docker sudo systemctl start docker
输入命令 docker -v 和 docker-compose -v,若出现版本号信息则说明 Docker 已经安装成功。
FastGPT 文档提供了多种部署方式,这里我们选择使用 Docker Compose 快速部署。
mkdir /usr/local/fastgpt
cd /usr/local/fastgpt/
curl -O https://raw.githubusercontent.com/labring/FastGPT/main/files/deploy/fastgpt/docker-compose.yml
curl -O https://raw.githubusercontent.com/labring/FastGPT/main/projects/app/data/config.json
docker-compose up -d
我们先不使用本地大模型,先使用第三方提供的线上版本
去零一万物官网注册一个账号,因为注册就送额度,不需要充钱,我们先拿它来做测试。 到 API Key 管理页面获取一个 key,这个 key 保存好后面要用到。
浏览器访问 http://localhost:3001 然后点击右上角登录 用户名:root;密码:123456,点击绿色登录
第一次登录会提示需要修改密码,可以不管它,直接点击上方导航栏的【渠道】 点击添加新渠道 填写相关信息 再点顶部导航栏【渠道】按钮,回到渠道列表页面 点击【测试】按钮,右上角出现成功提示,则说明配置成功了
OneAPI 配置成功后,接下来就是去 FastGPT 测试使用了,但是在这之前,需要修改之前下载的两个文件中的 config.json 文件,才能生效。
找到 llmModels 字段,上面已经存在了几个配置,我们在后面复制粘贴一个,然后把 model 和 name 两个字段改成刚在 OneAPI 上配置的。 改完后保存,然后重启服务:
docker-compose down
docker-compose up -d
浏览器访问 http://localhost:3000,进入 FastGPT 登录页面 账号 root,密码 1234,点击登录
创建一个新应用 模型选择零一万物,这个零一万物就是刚才在 config.json 中配置出来的 点击【保存并预览】按钮,然后就可以对话了
OK,使用线上第三方平台的大模型已经成功了,现在开始部署本地大模型来测试
进入 Ollama 官网点击下载,下载自己系统的安装包,可以看到 Linux 已经准备好命令了
直接使用官网给的命令下载 curl -fsSL https://ollama.com/install.sh | sh
Ollama 默认绑定的是 127.0.0.1:11434,内网其他机器是无法访问的,需要修改环境变量,打开 /etc/systemd/system/ollama.service 文件,修改 Environment 的值为:"OLLAMA_HOST=0.0.0.0" 保存,然后重启 Ollama 服务
systemctl daemon-reload
systemctl restart ollama
重启好后,在浏览器访问 http://localhost:11434 看到如下界面说明 Ollama 已经安装并且配置成功
在 Ollama 官网右上角可以搜索你想要的大模型,我搜索【qwen】,进入模型详情页后,可以选择版本,这里我选择了最低的版本,你们可以根据你们的服务器情况选择合适的版本,右边已经给出了下载模型的命令,复制执行。 模型下载好后会自动进入,这时候就可以进行对话了,按 Ctrl+D 退出
浏览器访问 http://localhost:3001,刚才有操作过的,新建一个渠道,填写相关内容
模型一栏选择【Ollama】
名称随便写
模型这里要注意,首先先点击【清除所有模型按钮】,把自动填充的模型清除掉,然后在右侧输入框手动输入 Ollama 里下载的模型名称,这个模型名称可以通过 ollama list 命令得到,名称一定要写完全一致,然后点击右侧【填入按钮】
继续填写:
点击提交,然后再回到渠道列表页,点击测试刚新添加的模型,右上角出现成功提示 接下来的步骤和之前测试零一万物时的步骤就一样了:
与本地模型进行对话已经实现了,现在需要将大模型对接到本地的知识库,那么就要安装向量模型 使用 Docker 安装,下载时间会比较长:
docker run registry.cn-hangzhou.aliyuncs.com/fastgpt_docker/m3e-large-api:latest
在 OneAPI 中新建渠道,类型选择 OpenAI,名称随便写,模型手动填入'm3e',密钥写【sk-aaabbbcccdddeeefffggghhhiiijjjkkk】,代理写【http://:8000】
完成后去 config.json 中增加一个向量模型配置,这次和之前的不一样了,之前都是在 llmModels 里加的,向量模型需要加在 vectorModels 里;并且需要把之前新增的本地 Qwen 模型中的 datasetProcess 改为 true,这样在后续 FastGPT 中知识库中才能选到这个模型。 重启服务后,进入 FastGPT,知识库中新建一个知识库,索引模型选择刚新建的向量模型 m3e,文件处理模型选择之前在 Ollama 里安装的模型,然后点击【确认创建】按钮 会默认有一个【手动录入】的文件夹,我们进这个文件夹手动录入一个数据测试 回到应用里,关联上这个知识库,然后点击【保存并预览】 就可以进行对话了,问一些刚才在知识库里相关的问题 也可以往知识库里上传一份文档让它分析 上传后等待索引完成,就可以回应用里问问题了
可以看到目前回答的还不太理想,后续可以使用高级编排功能,或者更换其他语言模型尝试。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online