一、为什么你需要一个'本地知识问答助手'?
你是否遇到过以下场景?
- 读了几十篇论文,却记不清某篇的关键结论?
- 公司内部文档散落在多个 Word/PDF 中,查找效率低下?
- 想快速回顾自己写的项目笔记,但 Ctrl+F 太慢?
- 担心把敏感数据上传到云端 AI(如 ChatGPT)造成泄露?
介绍如何在 Windows 本地离线搭建基于 Llama-3-8B 的个人知识问答助手。通过 Ollama 运行模型,结合 LangChain 和 Chroma 向量数据库实现检索增强生成(RAG)。文章涵盖硬件软件环境要求、核心组件介绍及分步搭建流程,包括安装 Ollama、准备知识库文档、配置 Python 虚拟环境等步骤,确保数据隐私且无需联网。
你是否遇到过以下场景?
解决方案来了! 本文将手把手教你,在 一台普通的 Windows 电脑(带 NVIDIA 显卡)上,利用开源大模型 Llama-3-8B + Ollama + LangChain + Chroma 向量数据库,搭建一个完全离线、无需联网、数据私有的个人知识问答系统。
输入问题 → 自动检索你的文档 → 生成精准答案 所有数据留在本地,绝不外传!
| 组件 | 最低要求 | 推荐配置 |
|---|---|---|
| 操作系统 | Windows 10/11 (64 位) | Windows 11 |
| CPU | 4 核 | 8 核以上 |
| 内存 | 16GB RAM | 32GB RAM |
| GPU | 无 GPU(纯 CPU,极慢) | NVIDIA RTX 3060 12GB 或更高 |
| 存储 | 20GB 可用空间(SSD) | 50GB+ NVMe SSD |
关键提示:GPU 非强制但强烈推荐!Llama-3-8B 在 CPU 上推理单次问答需 1–3 分钟,体验极差。RTX 3060 12GB 可通过 4-bit 量化流畅运行 Llama-3-8B(显存占用约 6–8GB)。
| 工具 | 用途 | 安装方式 |
|---|---|---|
| Python 3.10+ | 主开发环境 | python.org |
| Ollama | 本地运行 Llama-3 的最简方式 | ollama.com/download(Windows 版已支持) |
| Git | 下载示例代码 | git-scm.com |
| CUDA Toolkit 12.x | GPU 加速(若使用 NVIDIA 显卡) | NVIDIA 官网 |
| Visual Studio Build Tools | 编译部分 Python 包 | 安装时勾选'C++ build tools' |
注意:Ollama 在 2024 年底正式推出 Windows 原生客户端,告别 WSL!本文基于此版本。
| 组件 | 作用 |
|---|---|
| Llama-3-8B | Meta 开源的 80 亿参数语言模型,中文理解能力显著优于 Llama-2,支持长上下文(8K tokens) |
| Ollama | 一键运行大模型的工具,自动处理 GPU/CPU 切换、量化、API 服务 |
| LangChain | 连接 LLM 与外部数据的框架,实现'检索增强生成'(RAG) |
| Chroma | 轻量级向量数据库,用于存储和检索文档嵌入(Embedding) |
| Sentence Transformers | 将文本转换为向量(使用 all-MiniLM-L6-v2 等轻量模型) |
# 下载 Llama-3-8B 的 4-bit 量化版本(推荐)
o llama pull llama3:8b-instruct-q4_K_M
# 验证是否成功(会启动交互式对话)
o llama run llama3:8b-instruct-q4_K_M
q4_K_M是 GGUF 格式的 4-bit 量化模型,在保持质量的同时大幅降低资源消耗。
将所有你想让 AI 学习的文档放入一个文件夹,例如:
my_knowledge/
├── 项目笔记.md
├── 论文摘要.pdf
├── 会议记录.docx
└── 技术手册.txt
支持格式:
.txt,.md,.docx,.pptx(需额外解析库)
# 创建项目目录
mkdir local-rag-assistant && cd local-rag-assistant
# 创建虚拟环境
python -m venv venv
# Windows 激活命令
venv\Scripts\activate
# 升级 pip
python -m pip install --upgrade pip
# 安装核心依赖
pip install langchain langchain-community langchain-core
pip install chromadb
pip install pypdf python-docx # PDF 和 Word 解析
pip install sentence-transformers
pip install ollama # 用于调用 Ollama 的 API
ingest.py)
微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online