本地部署大模型与知识库构建指南
一、本地运行大模型
经过一年多迭代,大模型种类繁多,本地运行越来越简单。目前推荐使用 Ollama,它支持 PC、Mac 及树莓派等多种设备,扩展性强。
1. 安装 Ollama
下载并安装 Ollama 安装包(以 macOS 为例):
- 下载安装包。
- 运行安装程序,点击 Next 完成安装。
- 验证安装,终端输入命令查看版本。
2. 运行模型
安装完成后,可通过命令行拉取并运行模型。若不确定模型名称,可访问官网查询。 不同模型对内存有最低要求:
- 7B 模型:至少 8GB 内存
- 13B 模型:至少 16GB 内存
- 70B 模型:至少 64GB 内存
二、使用 Web UI 界面连接 Ollama
Ollama 原生为终端交互,建议使用 Open WebUI 提供图形化界面。
1. 下载和运行
使用 Docker 方式一键部署:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
参数说明:
-d:后台运行-p 3000:8080:端口映射--add-host:添加主机映射,用于访问宿主机服务-v:数据卷挂载--restart always:自动重启
启动后可能需要等待片刻,可通过 docker logs open-webui 查看日志。
2. 初始化与登录
首次访问需注册账号,数据本地存储。登录后即可进入主界面。
3. 模型选择
在设置中选择已下载的本地模型进行对话。
三、本地化知识库配置
- 文档设置:在 Open WebUI 界面中配置知识库选项。
- 加载内容:
- 对话窗口输入
#+ 链接加载网页。 - 对话框点击
+上传本地文件。 - 也可在文档模块直接导入。
- 对话窗口输入
若对知识库有更高级需求,可考虑使用 AnythingLLM。
四、常见问题与优化
- 端口冲突:如果 3000 端口被占用,请修改
-p参数中的主机端口。 - 启动慢:Docker 镜像较大,首次拉取和启动需要时间,请耐心等待。
- 性能调优:根据硬件配置选择合适的模型量化版本,平衡速度与效果。
通过以上步骤,即可完成本地大模型与知识库的基础搭建,实现数据隐私保护下的 AI 应用开发。


