RAG 实操教程：基于 LangChain 与 Llama2 构建个人 LLM 应用 | 极客日志

PythonAI算法

RAG 实操教程：基于 LangChain 与 Llama2 构建个人 LLM 应用

综述由AI生成介绍如何使用 LangChain 框架结合 Llama2 本地大模型构建检索增强生成（RAG）系统。通过 PyMuPDF 加载 PDF 文档，利用 Sentence Transformers 进行文本向量化，并存储至 ChromaDB 向量数据库。教程涵盖环境配置、文本分块、嵌入模型选择、LLM 服务启动及 Prompt 设置等关键步骤，最终实现基于私有数据的问答功能。此外，还补充了硬件要求、常见错误排查及性能优化建议，帮助开发者快速落地本地化 AI 应用。

PhpPioneer发布于 2025/2/6更新于 2026/6/320 浏览

RAG 实操教程：基于 LangChain 与 Llama2 构建个人 LLM 应用

本文将逐步指导您创建自己的 RAG（检索增强生成）系统，使您能够上传自己的 PDF 文件并向 LLM 询问有关 PDF 的信息。本教程侧重于核心流程，即暂时不涉及 Gradio 前端交互。相关技术栈包括以下内容：

LLM: Llama2
LLM API: llama.cpp service
Langchain
Vector DB: ChromaDB
Embedding: sentence-transformers

核心在于 LangChain，它是用于开发由语言模型支持的应用程序的框架。LangChain 就像胶水一样，有各种接口可以连接 LLM 模型与其他工具和数据源。以下我将使用最简单的方式示范完整流程。

步骤 1. 环境设置

首先设置 Python 环境，建议使用 conda 创建独立环境，并安装以下库。示例在 Jupyter 环境中完成。

# python=3.9
ipykernel
ipywidgets
langchain
PyMuPDF
chromadb
sentence-transformers
llama-cpp-python

注意：llama-cpp-python 可能需要编译依赖，请确保已安装 C++ 编译器及相应工具链。

步骤 2. 读入文件处理并导入数据库

首先我们要将外部信息处理后，放到 DB 中，以供之后查询相关知识。这一步对应文本拆分器（Text Splitter）和 Embedding 过程。

a). 使用文件加载器

LangChain 提供了很多文件加载器，包括 Word、CSV、PDF、Google Drive、Youtube 等。这里我创建一个虚拟人物 Alison Hawk 的 PDF 信息，并使用 PyMuPDFLoader 读取。请注意需要安装 PyMuPDF 才能使用。

from langchain.document_loaders import PyMuPDFLoader
loader = PyMuPDFLoader("LangChain/Virtual_characters.pdf")
PDF_data = loader.load()

b). 文本分割

文本分割器会将文档或文字分割成一个个 chunk，用以预防文档的信息超过 LLM 的 tokens。LangChain 提供两种主要方式：

RecursiveCharacterTextSplitter: 递归字符分割，默认推荐。
CharacterTextSplitter: 简单字符分割。

关键参数如下：

chunk_size: 决定分割文字时每个内存块中的最大字符数。
chunk_overlap: 决定分割文字时连续内存块之间重叠的字符数，避免语义被拆分后不完整。

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=)
all_splits = text_splitter.split_documents(PDF_data)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from langchain.embeddings import HuggingFaceEmbeddings

model_name = "sentence-transformers/all-MiniLM-L6-v2"
model_kwargs = {'device': 'cpu'}
embedding = HuggingFaceEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs
)

from langchain.vectorstores import Chroma

persist_directory = 'db'
vectordb = Chroma.from_documents(documents=all_splits, embedding=embedding, persist_directory=persist_directory)

from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain_community.llms import LlamaCpp

model_path = "llama.cpp/models/llama-2-7b-chat/llama-2_q4.gguf"

llm = LlamaCpp(
    model_path=model_path,
    n_gpu_layers=100,
    n_batch=512,
    n_ctx=2048,
    f16_kv=True,
    callback_manager=CallbackManager([StreamingStdOutCallbackHandler()]),
    verbose=True,
)

llm("What is Chain known for?")

from langchain.chat_models import ChatOpenAI

llm = ChatOpenAI(
    openai_api_key='None', 
    openai_api_base='http://127.0.0.1:8080/v1'
)

from langchain.chains import LLMChain
from langchain.chains.prompt_selector import ConditionalPromptSelector
from langchain.prompts import PromptTemplate

DEFAULT_LLAMA_SEARCH_PROMPT = PromptTemplate(
    input_variables=["question"],
    template="""<<SYS>> \n You are an assistant tasked with improving Google search results. \n <</SYS>> \n\n [INST] Generate THREE Google search queries that are similar to this question. The output should be a numbered list of questions and each should have a question mark at the end: \n\n {question} [/INST]""",
)

DEFAULT_SEARCH_PROMPT = PromptTemplate(
    input_variables=["question"],
    template="""You are an assistant tasked with improving Google search results. Generate THREE Google search queries that are similar to this question. The output should be a numbered list of questions and each should have a question mark at the end: {question}""",
)

QUESTION_PROMPT_SELECTOR = ConditionalPromptSelector(
    default_prompt=DEFAULT_SEARCH_PROMPT,
    conditionals=[(lambda llm: isinstance(llm, LlamaCpp), DEFAULT_LLAMA_SEARCH_PROMPT)],
)

prompt = QUESTION_PROMPT_SELECTOR.get_prompt(llm)

llm_chain = LLMChain(prompt=prompt, llm=llm)
question = "What is china known for?"
llm_chain.invoke({"question": question})

retriever = vectordb.as_retriever()

qa = RetrievalQA.from_chain_type(
    llm=llm, 
    chain_type="stuff", 
    retriever=retriever, 
    verbose=True
)

query = "Tell me about Alison Hawk's career and age"
result = qa.invoke(query)
print(result["result"])

from langchain.document_loaders import PyMuPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings
from langchain_community.llms import LlamaCpp
from langchain.chains import RetrievalQA
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler

# 1. Load Document
loader = PyMuPDFLoader("Virtual_characters.pdf")
PDF_data = loader.load()

# 2. Split Text
text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=5)
all_splits = text_splitter.split_documents(PDF_data)

# 3. Embed & Store
persist_directory = 'db'
model_name = "sentence-transformers/all-MiniLM-L6-v2"
model_kwargs = {'device': 'cpu'}
embedding = HuggingFaceEmbeddings(model_name=model_name, model_kwargs=model_kwargs)
vectordb = Chroma.from_documents(documents=all_splits, embedding=embedding, persist_directory=persist_directory)

# 4. Initialize LLM
model_path = "llama-2_q4.gguf"
llm = LlamaCpp(
    model_path=model_path,
    n_gpu_layers=100,
    n_batch=512,
    n_ctx=2048,
    f16_kv=True,
    callback_manager=CallbackManager([StreamingStdOutCallbackHandler()]),
    verbose=True,
)

# 5. Setup QA Chain
retriever = vectordb.as_retriever()
qa = RetrievalQA.from_chain_type(
    llm=llm, 
    chain_type="stuff", 
    retriever=retriever, 
    verbose=True
)

# 6. Query
query = "Tell me about Alison Hawk's career and age"
response = qa.invoke(query)
print(response)

RAG 实操教程：基于 LangChain 与 Llama2 构建个人 LLM 应用

RAG 实操教程：基于 LangChain 与 Llama2 构建个人 LLM 应用

步骤 1. 环境设置

步骤 2. 读入文件处理并导入数据库

a). 使用文件加载器

b). 文本分割

更多推荐文章

相关免费在线工具

c). 加载嵌入模型

d). 将 Embedding 结果汇入 VectorDB

步骤 3. 启用 LLM 服务

a). 使用 LangChain 的 LlamaCpp

b). 使用 API 服务

步骤 4. 设定你的 Prompt

步骤 5. 文本检索 + 查询 LLM

步骤 6. 使用你的 RAG

完整代码参考

常见问题与优化建议

硬件要求

常见错误排查

性能优化

总结与展望

更多推荐文章

相关免费在线工具

RAG 实操教程：基于 LangChain 与 Llama2 构建个人 LLM 应用

RAG 实操教程：基于 LangChain 与 Llama2 构建个人 LLM 应用

步骤 1. 环境设置

步骤 2. 读入文件处理并导入数据库

a). 使用文件加载器

b). 文本分割

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

c). 加载嵌入模型

d). 将 Embedding 结果汇入 VectorDB

步骤 3. 启用 LLM 服务

a). 使用 LangChain 的 LlamaCpp

b). 使用 API 服务

步骤 4. 设定你的 Prompt

步骤 5. 文本检索 + 查询 LLM

步骤 6. 使用你的 RAG

完整代码参考

常见问题与优化建议

硬件要求

常见错误排查

性能优化

总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具