LlamaIndex 中构建 RAG 应用完整指南 | 极客日志

PythonAI算法

LlamaIndex 中构建 RAG 应用完整指南

综述由AI生成在 LlamaIndex 框架中构建检索增强生成（RAG）应用的完整流程。内容包括环境依赖安装、文档加载与 Document 对象解析、LLM 与 Embedding 模型配置、Node 节点解析策略对比（基础解析与句子窗口解析）、VectorStoreIndex 索引构建、RetrieverQueryEngine 查询引擎设置以及索引的持久化存储与加载。重点阐述了 SentenceWindowNodeParser 如何通过捕获上下文窗口提升检索质量，并提供了具体的代码示例和优化建议，帮助用户高效实现基于私有数据的智能问答系统。

灭霸发布于 2025/2/6更新于 2026/6/218 浏览

LlamaIndex 中构建 RAG 应用完整指南

什么是 LlamaIndex

LlamaIndex 是一个专门用于构建基于大语言模型（LLM）的应用程序的数据框架。它的主要功能是帮助开发者摄取、结构化并访问私有或特定领域的数据，从而实现检索增强生成（RAG, Retrieval-Augmented Generation）。通过 LlamaIndex，可以将非结构化数据转化为 LLM 可理解的上下文，显著提升回答的准确性和相关性。

核心流程概览

在 LlamaIndex 中使用 RAG 通常遵循以下五个基本步骤：

加载文档：从本地文件、数据库或 API 获取原始数据。
解析文档：将文档拆分为 Node 节点，以便进行索引。
构建索引：利用嵌入模型将节点转换为向量并存储。
配置查询引擎：设置检索器和响应合成器。
执行查询：输入问题，获取基于上下文的生成式回答。

环境依赖安装

首先，需要安装必要的 Python 包。以下命令适用于大多数 Linux 和 macOS 环境，Windows 用户需注意编译依赖。

pip install llama-index -qU
pip install openai
pip install pypdf
pip install doc2txt
pip install llama-cpp-python
pip install transformers
pip install accelerate

如果是 Jupyter Notebook 环境，请使用 !pip 前缀。

导入模块与基础配置

初始化项目时，需要导入核心组件并配置日志输出，便于调试。

import os
import openai
from getpass import getpass
import logging
import sys
from pprint import pprint

# 配置日志
logging.basicConfig(stream=sys.stdout, level=logging.INFO)
logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))

# 核心导入
from llama_index import (
    VectorStoreIndex,
    SimpleDirectoryReader,
    load_index_from_storage,
    StorageContext,
    ServiceContext,
    Document
)

from llama_index.llms import OpenAI, HuggingFaceLLM
from llama_index.prompts import PromptTemplate
from llama_index.text_splitter import SentenceSplitter
from llama_index.embeddings  OpenAIEmbedding, HuggingFaceEmbedding
 llama_index.schema  MetadataMode
 llama_index.postprocessor  MetadataReplacementPostProcessor

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 加载 ./Data/ 目录下的所有文件
documents = SimpleDirectoryReader('./Data/').load_data()
print(f"加载了 {len(documents)} 个文档")
pprint(documents)

# 查看第一个文档的内容
print(documents[0].get_content())

# 查看元数据
print(documents[0].metadata)

from llama_index.llms import HuggingFaceLLM
from llama_index.prompts import PromptTemplate

llm = HuggingFaceLLM(
    model_name="HuggingFaceH4/zephyr-7b-beta",
    tokenizer_name="HuggingFaceH4/zephyr-7b-beta",
    context_window=4096,
    max_new_tokens=512,
    model_kwargs={'trust_remote_code': True},
    generate_kwargs={"temperature": 0.0},
    device_map="auto"
)

from llama_index.embeddings.huggingface import HuggingFaceEmbedding

embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-large-en-v1.5")

from llama_index.node_parser import SimpleNodeParser

base_node_parser = SimpleNodeParser()
base_nodes = base_node_parser.get_nodes_from_documents(documents)

from llama_index.node_parser import SentenceWindowNodeParser

sentence_node_parser = SentenceWindowNodeParser.from_defaults(
    window_size=3,              # 窗口大小，即前后各保留几句
    window_metadata_key="window", # 窗口内容存储的元数据键
    original_text_metadata_key="original_text" # 原文存储键
)

nodes = sentence_node_parser.get_nodes_from_documents(documents)

ctx_sentence = ServiceContext.from_defaults(
    llm=llm,
    embed_model=embed_model,
    node_parser=sentence_node_parser
)

ctx_base = ServiceContext.from_defaults(
    llm=llm,
    embed_model=embed_model,
    node_parser=base_node_parser
)

sentence_index = VectorStoreIndex(
    nodes,
    service_context=ctx_sentence
)

base_index = VectorStoreIndex(
    base_nodes,
    service_context=ctx_base
)

sentence_query_engine = sentence_index.as_query_engine(
    similarity_top_k=5,           # 返回最相关的 5 个节点
    verbose=True,
    node_postprocessor=[
        MetadataReplacementPostProcessor("window") # 用窗口元数据替换节点内容
    ],
)

base_query_engine = base_index.as_query_engine(
    similarity_top_k=5,
    verbose=True,
)

query = "使用 Python 检测图像中的人脸的示例代码。"

# 使用句子窗口解析器
response_sentence = sentence_query_engine.query(query)
print(response_sentence)

# 使用基础解析器
response_base = base_query_engine.query(query)
print(response_base)

# 指定持久化目录
persist_dir = "./storage/sentence_index"
sentence_index.storage_context.persist(persist_dir=persist_dir)

from llama_index import StorageContext, load_index_from_storage

# 重建存储上下文
SC_retrieved = StorageContext.from_defaults(persist_dir=persist_dir)

# 从存储加载索引
retrieved_index = load_index_from_storage(
    SC_retrieved,
    service_context=ctx_sentence
)

# 重建查询引擎
retrieved_query_engine = retrieved_index.as_query_engine(
    similarity_top_k=5,
    node_postprocessor=[MetadataReplacementPostProcessor("window")]
)

# 再次提问
final_response = retrieved_query_engine.query(query)
print(final_response)

LlamaIndex 中构建 RAG 应用完整指南

LlamaIndex 中构建 RAG 应用完整指南

什么是 LlamaIndex

核心流程概览

环境依赖安装

导入模块与基础配置

更多推荐文章

相关免费在线工具

数据加载与 Document 对象

配置 LLM 与 Embedding 模型

设置 LLM

配置 Embedding 模型

Node 节点解析策略

1. 标准节点解析 (Base Nodes)

2. 句子窗口节点解析 (Sentence Window)

构建索引与服务上下文

VectorStoreIndex

查询引擎与后处理器

RetrieverQueryEngine

MetadataReplacementPostProcessor

执行查询示例

持久化存储与加载

保存索引

加载索引

常见问题与优化建议

总结

更多推荐文章

相关免费在线工具

LlamaIndex 中构建 RAG 应用完整指南

LlamaIndex 中构建 RAG 应用完整指南

什么是 LlamaIndex

核心流程概览

环境依赖安装

导入模块与基础配置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

数据加载与 Document 对象

配置 LLM 与 Embedding 模型

设置 LLM

配置 Embedding 模型

Node 节点解析策略

1. 标准节点解析 (Base Nodes)

2. 句子窗口节点解析 (Sentence Window)

构建索引与服务上下文

VectorStoreIndex

查询引擎与后处理器

RetrieverQueryEngine

MetadataReplacementPostProcessor

执行查询示例

持久化存储与加载

保存索引

加载索引

常见问题与优化建议

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具