LangChain 实战：基于网页数据的 RAG 问答及来源溯源 | 极客日志

PythonAI算法

LangChain 实战：基于网页数据的 RAG 问答及来源溯源

综述由AI生成介绍使用 LangChain 构建 RAG 问答系统，重点在于从在线网页提取数据而非本地文件。通过 WebBaseLoader 加载 HTML，利用 RecursiveCharacterTextSplitter 分块，存入 Chroma 向量库。核心难点在于组装 Chain 时如何同时返回答案和引用来源，文中详细解析了 RunnableParallel 与 RunnablePassthrough 的配合使用，确保答案可追溯，增强可信度。此外还涵盖了环境配置、参数调优及常见问题的解决方案。

蓝绿部署发布于 2025/2/7更新于 2026/6/142 浏览

LangChain 实战：基于网页数据的 RAG 问答及来源溯源

1. 背景与目标

在构建检索增强生成（RAG）系统时，数据源的选择至关重要。传统的 RAG 实践常使用本地 PDF 或文档作为知识库，但在实际业务场景中，在线网页数据往往更具时效性和丰富性。

本教程将综合展示如何利用 LangChain 实现网络数据 + RAG 问答的完整流程。除了基本的问答功能外，重点在于如何在返回结果中添加答案的来源引用。这一功能在 RAG 应用中非常关键：

可追溯性：让用户了解答案生成的依据，防止模型幻觉。
信任度：展示参考原文，增加回答的专业性和可信度。
调试辅助：当回答错误时，可以通过来源快速定位是检索问题还是生成问题。

2. 环境准备

确保已安装必要的依赖库。以下代码基于 langchain-community 和 langchain-openai 等最新组件结构编写。

pip install langchain langchain-community langchain-openai chromadb beautifulsoup4 requests

主要导入模块如下：

import bs4
from langchain import hub
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import Chroma
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough, RunnableParallel
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter

3. 加载网页数据

3.1 使用 WebBaseLoader

LangChain 提供了 WebBaseLoader 类专门用于加载网页内容。它底层利用 urllib 获取 HTML，并通过 BeautifulSoup 进行解析。

loader = WebBaseLoader(
    web_paths=("https://lilianweng.github.io/posts/2023-06-23-agent/",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("post-content", "post-title", )
        )
    ),
)
docs = loader.load()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

loader = WebBaseLoader(
    web_paths=(url,),
    encoding="utf-8",
    continue_on_failure=True,
)

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200
)
splits = text_splitter.split_documents(docs)

vectorstore = Chroma.from_documents(
    documents=splits, 
    embedding=OpenAIEmbeddings()
)

prompt = hub.pull("rlm/rag-prompt")
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

# 定义处理上下文的子链
rag_chain_from_docs = (
    RunnablePassthrough.assign(context=(lambda x: format_docs(x["context"])))
    | prompt
    | llm
    | StrOutputParser()
)

# 并行执行检索与答案生成
rag_chain_with_source = RunnableParallel(
    {"context": retriever, "question": RunnablePassthrough()}
).assign(answer=rag_chain_from_docs)

result = rag_chain_with_source.invoke("What is Task Decomposition?")
print(result)

LangChain 实战：基于网页数据的 RAG 问答及来源溯源

LangChain 实战：基于网页数据的 RAG 问答及来源溯源

1. 背景与目标

2. 环境准备

3. 加载网页数据

3.1 使用 WebBaseLoader

更多推荐文章

相关免费在线工具

3.2 处理编码与异常

4. 数据分块

5. 向量化与存储

6. 基础 RAG Chain 组装

7. 加入 Sources（答案来源）

7.1 核心代码实现

7.2 逻辑原理解析

7.3 运行示例

8. 常见问题与优化建议

8.1 检索相关性不足

8.2 网页加载失败

8.3 响应速度优化

9. 总结

更多推荐文章

相关免费在线工具

LangChain 实战：基于网页数据的 RAG 问答及来源溯源

LangChain 实战：基于网页数据的 RAG 问答及来源溯源

1. 背景与目标

2. 环境准备

3. 加载网页数据

3.1 使用 WebBaseLoader

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 处理编码与异常

4. 数据分块

5. 向量化与存储

6. 基础 RAG Chain 组装

7. 加入 Sources（答案来源）

7.1 核心代码实现

7.2 逻辑原理解析

7.3 运行示例

8. 常见问题与优化建议

8.1 检索相关性不足

8.2 网页加载失败

8.3 响应速度优化

9. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具