一、为什么你需要一个'本地知识问答助手'?
你是否遇到过以下场景?
- 读了几十篇论文,却记不清某篇的关键结论?
- 公司内部文档散落在多个 Word/PDF 中,查找效率低下?
- 想快速回顾自己写的项目笔记,但 Ctrl+F 太慢?
- 担心把敏感数据上传到云端 AI(如 ChatGPT)造成泄露?
解决方案来了! 本文将手把手教你,在 一台普通的 Windows 电脑(带 NVIDIA 显卡)上,利用开源大模型 Llama-3-8B + Ollama + LangChain + Chroma 向量数据库,搭建一个完全离线、无需联网、数据私有的个人知识问答系统。
输入问题 → 自动检索你的文档 → 生成精准答案 所有数据留在本地,绝不外传!
二、硬件与软件环境要求
1. 硬件配置(最低 vs 推荐)
| 组件 | 最低要求 | 推荐配置 |
|---|---|---|
| 操作系统 | Windows 10/11 (64 位) | Windows 11 |
| CPU | 4 核 | 8 核以上 |
| 内存 | 16GB RAM | 32GB RAM |
| GPU | 无 GPU(纯 CPU,极慢) | NVIDIA RTX 3060 12GB 或更高 |
| 存储 | 20GB 可用空间(SSD) | 50GB+ NVMe SSD |
关键提示:GPU 非强制但强烈推荐!Llama-3-8B 在 CPU 上推理单次问答需 1–3 分钟,体验极差。RTX 3060 12GB 可通过 4-bit 量化流畅运行 Llama-3-8B(显存占用约 6–8GB)。
2. 软件依赖清单
| 工具 | 用途 | 安装方式 |
|---|---|---|
| Python 3.10+ | 主开发环境 | python.org |
| Ollama | 本地运行 Llama-3 的最简方式 | Ollama 官网(Windows 版已支持) |
| Git | 下载示例代码 | git-scm.com |
| CUDA Toolkit 12.x | GPU 加速(若使用 NVIDIA 显卡) | NVIDIA 官网 |

