基于 RAG 架构的本地智能问答系统构建指南

RAG 架构结合开源大模型与向量数据库，实现本地化智能问答。通过 Sentence-BERT 进行语义检索，FAISS 存储向量索引，Phi-3 生成回答。方案无需云端 API，保护数据隐私且成本低。涵盖知识库构建、索引建立、模型推理全流程，支持 Markdown/PDF 文档处理，适用于企业客服、内部知识库等场景。提供完整 Python 代码示例及优化建议，帮助开发者快速落地私有化 AI 应用。

技术博主发布于 2026/3/23更新于 2026/5/34 浏览

引言

在数字化转型浪潮中，智能问答机器人正成为企业客服、知识库检索乃至个人助理等场景的关键交互入口。它能让员工秒级获取技术解答、客户即时获得业务支持、学习者随时得到个性化辅导，极大提升信息获取效率与用户体验。

为何选择 Python 与开源 AI 模型？Python 拥有成熟的 AI 生态——Hugging Face Transformers、LangChain、FAISS 等工具大幅降低开发门槛；而本地部署的开源大模型（如 Phi-3、Mistral、Llama 系列）则保障了数据隐私、规避了 API 成本，特别适合对安全性或离线能力有要求的场景。

本文将带你从零构建一个基于 RAG（检索增强生成）架构的本地智能问答系统：使用 Sentence-BERT 实现语义检索，FAISS 作为向量数据库，并集成轻量级开源语言模型生成答案。整个方案完全开源、免费，且可在普通消费级电脑上运行。

技术选型分析

在深入实现之前，有必要先理解不同技术路线的差异。传统的问答系统通常基于规则引擎或关键词匹配，开发者需要预先编写大量的 if-else 规则或维护一个精心设计的问题 - 答案对数据库。这种方案的优点是响应快速、结果可控，但缺点也很明显：缺乏灵活性，无法理解语义相近但表达不同的用户问题，维护成本随着知识库规模呈指数级增长。

基于大语言模型（LLM）的问答系统则通过语义理解彻底改变了这一局面。LLM 能够理解用户意图，捕捉语言中的细微差别，并生成自然流畅的回答。更重要的是，通过 RAG 技术，我们可以将 LLM 与本地知识库结合，既保证回答的准确性，又避免了模型幻觉问题。这种架构本质上是对话式 AI 的"外挂大脑"——LLM 负责理解和生成，知识库提供事实依据。

在本项目中，我们选用了以下技术栈：

嵌入模型：sentence-transformers/all-MiniLM-L6-v2。这是一个轻量级的语义编码器，能够将文本转换为 384 维的向量表示，在速度和效果之间取得了良好平衡。
向量数据库：FAISS（Facebook AI Similarity Search）。这是 Meta 开发的高效相似度搜索库，支持海量向量的快速检索。
生成模型：microsoft/Phi-3-mini-4k-instruct。Phi-3 是微软推出的轻量级开源模型，参数量约 38 亿，在消费级 GPU 甚至 CPU 上即可流畅运行，同时具备出色的指令遵循能力。
开发框架：LangChain 和 Transformers。LangChain 提供了便捷的 RAG 管道抽象，Transformers 则负责模型的加载和推理。

为什么不直接调用 OpenAI、文心一言等云端 API？原因有三：首先，本地部署确保数据完全私密，适合处理敏感信息；其次，一次投入即可无限使用，没有按 Token 计费的成本压力；最后，离线环境下的可用性对于某些行业（如军工、金融、医疗）至关重要。当然，本地模型的性能在复杂推理任务上可能略逊于 GPT-4 等顶级模型，但对于知识库问答这类相对封闭的场景，已经能够取得令人满意的效果。

系统架构设计

一个典型的 RAG 问答系统包含两个主要阶段：离线索引阶段和在线推理阶段。

离线索引阶段，我们需要将非结构化的知识库文档（如 Markdown 文件、PDF 文档等）进行预处理。首先，将长文档切分成较小的文本块，这是为了确保检索时的语义聚焦和上下文窗口的高效利用。接着，使用嵌入模型将每个文本块转换为向量表示，并构建 FAISS 索引。这一阶段类似于为书籍建立"语义目录"，让后续的检索能够快速定位相关内容。

在线推理阶段则是用户交互的核心流程。当用户提出问题时，系统首先对问题文本进行相同的嵌入处理，得到问题向量。然后，在 FAISS 索引中搜索与问题向量最相似的前 k 个文本块。这些检索到的文本块将与用户问题一起组成完整的上下文，送入 LLM 生成最终答案。LLM 会根据提供的上下文，结合其预训练的知识，生成一个自然、准确、连贯的回答。

整个系统的数据流动可以概括为以下流程：

用户输入问题
文本预处理（分词、清洗）
嵌入模型编码（Sentence-BERT）
向量检索（FAISS 相似度搜索）
Top-K 文本块提取
上下文拼接（问题 + 相关知识）
LLM 生成答案（Phi-3/Mistral）
返回回答给用户

这个架构设计充分考虑了系统的可扩展性。例如，可以轻松替换不同的嵌入模型或生成模型以适应特定需求；FAISS 索引支持增量更新，新增知识时无需重建整个索引；通过调整 top-k 值可以平衡召回率和精确度。在实际部署中，还可以添加查询改写、结果重排序、缓存机制等模块进一步提升性能。

相关免费在线工具

加密/解密文本

使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online

RSA密钥对生成器

生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online

Mermaid 预览与可视化编辑

基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online

随机西班牙地址生成器

随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online

Gemini 图片去水印

基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online

curl 转代码

解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# knowledge_base.py import os from typing import List, Dict import re class KnowledgeBase: """本地知识库管理类""" def __init__(self, chunk_size: int = 500, chunk_overlap: int = 50): """初始化知识库 Args: chunk_size: 文本块的最大字符数 chunk_overlap: 相邻文本块之间的重叠字符数 """ self.chunk_size = chunk_size self.chunk_overlap = chunk_overlap self.documents = [] # 存储所有文本块 def load_markdown_file(self, file_path: str) -> str: """加载 Markdown 文件内容 Args: file_path: 文件路径 Returns: 文件文本内容 """ with open(file_path, 'r', encoding='utf-8') as f: return f.read() def split_text_into_chunks(self, text: str, source: str = "") -> List[Dict]: """将长文本切分为小块 Args: text: 待切分的文本 source: 文本来源标识（如文件名） Returns: 文本块列表，每个块包含内容和元数据 """ chunks = [] start = 0 text_length = len(text) while start < text_length: end = start + self.chunk_size # 如果不是最后一块，尝试在句号、问号或换行处切分 if end < text_length: for delimiter in ['。', '！', '？', '\n\n', '. ', '! ', '? ']: pos = text.rfind(delimiter, start, end) if pos != -1: end = pos + len(delimiter) break chunk_text = text[start:end].strip() if chunk_text: # 跳过空块 chunks.append({ 'content': chunk_text, 'metadata': { 'source': source, 'start': start, 'end': end } }) # 移动到下一块，考虑重叠区域 start = end - self.chunk_overlap return chunks def load_directory(self, directory: str, extension: str = '.md') -> None: """加载目录下所有指定扩展名的文件 Args: directory: 目录路径 extension: 文件扩展名 """ for filename in os.listdir(directory): if filename.endswith(extension): file_path = os.path.join(directory, filename) print(f"正在加载文件：{filename}") content = self.load_markdown_file(file_path) chunks = self.split_text_into_chunks(content, source=filename) self.documents.extend(chunks) print(f"知识库构建完成，共 {len(self.documents)} 个文本块") def get_documents(self) -> List[Dict]: """获取所有文档块""" return self.documents

# vector_store.py import numpy as np import faiss from sentence_transformers import SentenceTransformer from typing import List, Dict, Tuple class VectorStore: """向量存储和检索类""" def __init__(self, model_name: str = 'sentence-transformers/all-MiniLM-L6-v2'): """初始化向量存储 Args: model_name: 嵌入模型名称 """ print(f"正在加载嵌入模型：{model_name}") self.embedding_model = SentenceTransformer(model_name) self.dimension = self.embedding_model.get_sentence_embedding_dimension() self.index = None self.documents = [] # 存储原始文档块 def build_index(self, documents: List[Dict]) -> None: """为文档构建 FAISS 索引 Args: documents: 文档块列表 """ self.documents = documents print(f"正在为 {len(documents)} 个文档块生成嵌入向量...") # 批量生成嵌入向量 texts = [doc['content'] for doc in documents] embeddings = self.embedding_model.encode( texts, show_progress_bar=True, convert_to_numpy=True ) # 构建 FAISS 索引（使用 L2 距离） self.index = faiss.IndexFlatL2(self.dimension) self.index.add(embeddings.astype('float32')) print(f"索引构建完成，向量维度：{self.dimension}, 索引大小：{self.index.ntotal}") def save_index(self, index_path: str, docs_path: str) -> None: """保存索引和文档到磁盘 Args: index_path: FAISS 索引保存路径 docs_path: 文档保存路径 """ if self.index is None: raise ValueError("索引尚未构建") faiss.write_index(self.index, index_path) np.save(docs_path, self.documents) print(f"索引已保存到 {index_path}") print(f"文档已保存到 {docs_path}") def load_index(self, index_path: str, docs_path: str) -> None: """从磁盘加载索引和文档 Args: index_path: FAISS 索引路径 docs_path: 文档路径 """ self.index = faiss.read_index(index_path) self.documents = np.load(docs_path, allow_pickle=True).tolist() print(f"索引已加载，包含 {self.index.ntotal} 个向量") def search(self, query: str, top_k: int = 3) -> List[Dict]: """搜索与查询最相似的文档 Args: query: 查询文本 top_k: 返回最相似的前 k 个结果 Returns: 包含文档内容和相似度分数的列表 """ if self.index is None: raise ValueError("索引尚未构建或加载") # 将查询转换为向量 query_vector = self.embedding_model.encode([query], convert_to_numpy=True).astype('float32') # 搜索最相似的向量 distances, indices = self.index.search(query_vector, top_k) # 构建结果列表 results = [] for i, (distance, idx) in enumerate(zip(distances[0], indices[0])): if idx < len(self.documents): # 确保索引有效 result = self.documents[idx].copy() # 将 L2 距离转换为相似度分数（0-1 之间） result['score'] = 1 / (1 + distance) result['rank'] = i + 1 results.append(result) return results

# llm_generator.py import torch from transformers import AutoTokenizer, AutoModelForCausalLM from typing import List, Dict class LLMGenerator: """LLM 答案生成器""" def __init__( self, model_name: str = 'microsoft/Phi-3-mini-4k-instruct', device: str = 'auto' ): """初始化 LLM 生成器 Args: model_name: 模型名称或本地路径 device: 运行设备 ('cuda', 'cpu', 'auto') """ if device == 'auto': self.device = 'cuda' if torch.cuda.is_available() else 'cpu' else: self.device = device print(f"正在加载模型：{model_name}") print(f"使用设备：{self.device}") self.tokenizer = AutoTokenizer.from_pretrained( model_name, trust_remote_code=True ) self.model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=torch.float16 if self.device == 'cuda' else torch.float32, device_map='auto' if self.device == 'cuda' else None, trust_remote_code=True ) if self.device == 'cpu': self.model = self.model.to(self.device) print("模型加载完成") def generate_answer( self, query: str, context_docs: List[Dict], max_new_tokens: int = 256, temperature: float = 0.7 ) -> str: """基于上下文生成答案 Args: query: 用户问题 context_docs: 检索到的相关文档 max_new_tokens: 最大生成 token 数 temperature: 采样温度（越低越确定） Returns: 生成的答案 """ # 构建上下文 context_text = "\n\n".join([ f"[参考信息 {i+1}]\n{doc['content']}" for i, doc in enumerate(context_docs) ]) # 构建提示词（Prompt Engineering） prompt = f"""你是一个专业的智能客服助手。请根据以下参考信息回答用户的问题。参考信息：{context_text} 用户问题：{query} 请基于参考信息给出准确、简洁、友好的回答。如果参考信息中没有相关内容，请礼貌告知用户你无法从现有资料中找到答案。回答：""" # 编码输入 inputs = self.tokenizer( prompt, return_tensors='pt', truncation=True, max_length=2048 # 控制输入长度 ).to(self.device) # 生成答案 with torch.no_grad(): outputs = self.model.generate( **inputs, max_new_tokens=max_new_tokens, temperature=temperature, do_sample=True if temperature > 0 else False, top_p=0.9, repetition_penalty=1.1, pad_token_id=self.tokenizer.eos_token_id ) # 解码输出（只返回新生成的部分） answer = self.tokenizer.decode( outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True ) return answer.strip()

# main.py import os from dotenv import load_dotenv from knowledge_base import KnowledgeBase from vector_store import VectorStore from llm_generator import LLMGenerator class QASystem: """智能问答系统主类""" def __init__( self, knowledge_dir: str = './knowledge', index_path: str = './faiss_index.bin', docs_path: str = './documents.npy', rebuild_index: bool = False ): """初始化问答系统 Args: knowledge_dir: 知识库目录 index_path: FAISS 索引路径 docs_path: 文档存储路径 rebuild_index: 是否重建索引 """ # 初始化组件 self.kb = KnowledgeBase(chunk_size=500, chunk_overlap=50) self.vector_store = VectorStore() self.llm = LLMGenerator() # 加载或构建索引 if rebuild_index or not os.path.exists(index_path): print("正在构建新索引...") self.kb.load_directory(knowledge_dir) documents = self.kb.get_documents() self.vector_store.build_index(documents) self.vector_store.save_index(index_path, docs_path) else: print("正在加载已有索引...") self.vector_store.load_index(index_path, docs_path) print("=" * 50) print("智能问答系统初始化完成！") print("=" * 50) def ask(self, query: str, top_k: int = 3) -> Dict: """处理用户问题 Args: query: 用户问题 top_k: 检索的文档数量 Returns: 包含答案和参考信息的字典 """ print(f"\n用户问题：{query}") print("正在检索相关知识...") # 向量检索 retrieved_docs = self.vector_store.search(query, top_k=top_k) print(f"检索到 {len(retrieved_docs)} 个相关文档片段") # 生成答案 print("正在生成答案...") answer = self.llm.generate_answer(query, retrieved_docs) return { 'query': query, 'answer': answer, 'sources': [ { 'content': doc['content'][:100] + '...', 'score': doc['score'], 'source': doc['metadata']['source'] } for doc in retrieved_docs ] } def run_interactive(self): """运行交互式问答循环""" print("\n" + "=" * 50) print("智能问答系统已就绪！") print("输入您的问题，输入 'quit' 或 'exit' 退出") print("=" * 50 + "\n") while True: try: query = input("您的问题：").strip() if not query: continue if query.lower() in ['quit', 'exit', '退出']: print("感谢使用，再见！") break # 处理问题 result = self.ask(query) # 显示结果 print(f"\n{'='*50}") print(f"答案：{result['answer']}") print(f"{'='*50}") print(f"参考信息 (共 {len(result['sources'])} 条):") for i, source in enumerate(result['sources'], 1): print(f"\n{i}. 来源：{source['source']}") print(f" 相似度：{source['score']:.3f}") print(f" 内容：{source['content']}") except KeyboardInterrupt: print("\n\n检测到中断，正在退出...") break except Exception as e: print(f"\n发生错误：{str(e)}") print("请尝试重新提问\n") if __name__ == '__main__': # 创建示例知识库目录和文件 os.makedirs('./knowledge', exist_ok=True) # 创建示例知识库文件（如果不存在） sample_md = """# 公司员工手册 ## 密码重置流程如果员工忘记了系统登录密码，可以按照以下步骤进行重置： 1. 访问公司内部系统登录页面 2. 点击'忘记密码'链接 3. 输入员工邮箱地址 4. 查收邮箱中的重置链接 5. 点击链接进入密码重置页面 6. 设置新密码（需包含大小写字母、数字和特殊字符） 7. 使用新密码登录系统如遇到问题，请联系 IT 部门热线：400-123-4567 ## 年假申请流程员工申请年假需要遵循以下流程： 1. 提前至少 3 个工作日提交申请 2. 登录 HR 系统，进入'假期管理'模块 3. 选择年假类型，填写起止日期 4. 填写假期期间的工作交接安排 5. 提交申请等待审批 6. 直属上级审批通过后生效注意事项： - 年假最小单位为 0.5 天 - 法定节假日前后 3 天内不得申请年假 - 年假需在当年 12 月 31 日前使用完毕 ## 报销流程员工日常费用报销流程如下： 1. 收集并整理所有原始发票 2. 登录财务系统，进入'费用报销'模块 3. 填写报销单，包括： - 费用类型（交通、餐饮、办公用品等） - 金额和发票张数 - 费用事由 4. 上传发票扫描件或照片 5. 提交申请 6. 等待财务部门审核（一般 3-5 个工作日） 7. 审核通过后，费用将转入员工工资卡报销标准： - 市内交通：单次不超过 50 元 - 餐饮费用：人均不超过 80 元/餐 - 住宿费用：一线城市不超过 500 元/晚 ## 联系方式各部门联系方式： - IT 部门：[email protected] | 内线 8888 - HR 部门：[email protected] | 内线 6666 - 财务部门：[email protected] | 内线 9999 """ sample_path = './knowledge/员工手册.md' if not os.path.exists(sample_path): with open(sample_path, 'w', encoding='utf-8') as f: f.write(sample_md) print(f"已创建示例知识库文件：{sample_path}") # 初始化并运行问答系统 qa_system = QASystem(rebuild_index=True) qa_system.run_interactive()

基于 RAG 架构的本地智能问答系统构建指南

引言

技术选型分析

系统架构设计

更多推荐文章

相关免费在线工具

核心代码实现

安装依赖

构建本地知识库

生成嵌入向量并构建 FAISS 索引

集成轻量级 LLM

主问答循环

效果演示与优化建议

常见问题与解决方案

进阶优化方向

总结

更多推荐文章

相关免费在线工具

基于 RAG 架构的本地智能问答系统构建指南

引言

技术选型分析

系统架构设计

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

核心代码实现

安装依赖

构建本地知识库

生成嵌入向量并构建 FAISS 索引

集成轻量级 LLM

主问答循环

效果演示与优化建议

常见问题与解决方案

进阶优化方向

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具