本地部署大语言模型实践（2）：集成外部知识库详细步骤 | 极客日志

PythonAI算法

本地部署大语言模型实践（2）：集成外部知识库详细步骤

综述由AI生成如何在本地部署环境下，利用 Ollama 运行大语言模型并结合 LangChain 框架构建检索增强生成（RAG）系统。内容涵盖环境准备、模型选择、基线测试、嵌入模型配置、向量数据库搭建及完整问答链的实现。通过对比有无外部知识库的测试结果，验证了 RAG 技术在提升模型回答准确性方面的有效性，并提供了关于分块大小、检索策略及参数优化的实用建议。

1qazxsw2发布于 2025/2/6更新于 2026/6/340 浏览

本地部署大语言模型实践（2）：集成外部知识库详细步骤

在上一篇文章中，我们展示了如何通过 Ollama 这款工具，在本地运行大型语言模型。本篇文章将着重介绍如何让模型从外部知识库中检索定制数据，来提升大型语言模型的准确性，让它看起来更'智能'。

本文涉及 LangChain 和 RAG 两个核心概念。我们将通过实际代码演示如何构建一个基于检索增强生成（Retrieval Augmented Generation）的问答系统。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Windows、macOS 或 Linux。
Python 版本：建议 Python 3.9 或以上。

依赖安装：

pip install langchain langchain-community ollama tiktoken docarray

Ollama 服务：确保 Ollama 已在后台运行，并拉取了对应的模型。

准备模型

访问 Ollama 的模型页面，搜索 qwen。本次实验将使用对中文语义理解较好的 qwen:7b 模型。

运行模型

ollama run qwen:7b

第一轮测试：无上下文问答

首先编写基础代码，测试模型在没有外部知识辅助下的回答能力。

from langchain_community.chat_models import ChatOllama
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate

# 初始化本地模型
model_local = ChatOllama(model="qwen:7b")

# 定义提示模板
template = "{topic}"
prompt = ChatPromptTemplate.from_template(template)

# 构建链
chain = model_local | StrOutputParser()

# 执行提问
print(chain.invoke("身长七尺，细眼长髯的是谁？"))

模型返回的答案：

这句话描述的是中国古代文学作品《三国演义》中的角色刘备。刘备被描绘为一位身高七尺（约 1.78 米），眼睛细小但有神，长着长须的蜀汉开国皇帝。

可以看到，这是一个开放型问题，没有指定上下文。虽然模型凭借训练数据联想到了三国人物，但答案并不准确（实际上是曹操）。这说明了纯预训练模型在处理特定领域事实时的局限性。

引入 RAG 技术

检索增强生成（Retrieval Augmented Generation，简称 RAG）的工作方式是在共享的语义空间中，从外部知识库中检索事实，将这些事实用作决策过程的一部分，以此来提升大型语言模型的准确性。

RAG 工作流程对比

：向模型提问 -> 模型从已训练数据中查询数据 -> 组织语言 -> 生成答案。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

ollama run nomic-embed-text

from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter

# 加载文档
loader = TextLoader("./data/三国演义.txt", encoding="utf-8")
documents = loader.load()

# 文本分割
# chunk_size 控制每个块的大小，chunk_overlap 控制重叠部分以便保留上下文
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=7500, 
    chunk_overlap=100
)
doc_splits = text_splitter.split_documents(documents)

from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import DocArrayInMemorySearch

# 初始化嵌入模型
embeddings = OllamaEmbeddings(model='nomic-embed-text')

# 创建向量库
vectorstore = DocArrayInMemorySearch.from_documents(doc_splits, embeddings)
retriever = vectorstore.as_retriever()

from langchain_community.chat_models import ChatOllama
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate

model_local = ChatOllama(model="qwen:7b")

# 定义提示模板，强制模型仅根据上下文回答
template = """Answer the question based only on the following context:
{context}
Question: {question}
"""
prompt = ChatPromptTemplate.from_template(template)

chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt
    | model_local
    | StrOutputParser()
)

# 执行提问
result = chain.invoke("身长七尺，细眼长髯的是谁？")
print(result)

本地部署大语言模型实践（2）：集成外部知识库详细步骤

本地部署大语言模型实践（2）：集成外部知识库详细步骤

环境准备

准备模型

运行模型

第一轮测试：无上下文问答

引入 RAG 技术

RAG 工作流程对比

更多推荐文章

相关免费在线工具

嵌入模型配置

使用 LangChain 构建流程

1. 文档加载与分词

2. 向量存储

3. 构建完整链

第二轮测试：RAG 增强问答

总结与优化建议

常见问题与优化

更多推荐文章

相关免费在线工具

本地部署大语言模型实践（2）：集成外部知识库详细步骤

本地部署大语言模型实践（2）：集成外部知识库详细步骤

环境准备

准备模型

运行模型

第一轮测试：无上下文问答

引入 RAG 技术

RAG 工作流程对比

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

嵌入模型配置

使用 LangChain 构建流程

1. 文档加载与分词

2. 向量存储

3. 构建完整链

第二轮测试：RAG 增强问答

总结与优化建议

常见问题与优化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具