LangChain 实战：URL 加载与网页内容爬虫封装 | 极客日志

PythonAI算法

LangChain 实战：URL 加载与网页内容爬虫封装

综述由AI生成介绍基于 LangChain 实现 URL 网页内容抓取与处理的技术方案。涵盖 RAG 流程中的检索步骤，重点讲解 Loading 模块（如 AsyncChromiumLoader）与 Transforming 模块（如 BeautifulSoupTransformer）的配合使用。通过代码示例演示如何将 HTML 转换为纯文本，并利用浏览器自动化工具处理动态渲染页面。此外，还探讨了结合大模型 Function Calling 进行二次提取的高级方法，对比了传统标签提取与 AI 提取的优劣。最后补充了最佳实践建议，包括请求头设置、错误处理及性能优化，帮助开发者构建稳定的网络爬虫知识库系统。

霸天发布于 2025/2/6更新于 2026/6/117 浏览

LangChain 实战：URL 加载与网页内容爬虫封装

Web 检索是 AI 大模型应用的一个热门方向。其涉及的主要步骤如下：

用户提问，联网检索
通过 URLs 记载网页 HTML 数据
加载到的数据通过转换，获取关注的内容，形成文本
对文本进行分块、向量化、存储
调用大模型进行总结、答案生成

这其实就是 RAG（Retrieval-Augmented Generation）的基本流程，只不过知识库不再局限在你自己的知识库，而是利用在线检索，搜罗互联网上的数据作为相关知识。

搜罗数据的过程，可以有两种方法：一种是调用检索的 API（例如 GoogleSearch API），直接获取检索结果；另一种方法是靠爬虫，将网页数据抓取下来，存入向量数据库使用。

本文重点探讨基于 LangChain 框架的爬虫相关使用方法。

0. LangChain 接口架构

LangChain 中，将爬虫功能分成了两个核心模块：Loading 和 Transforming。

Loading 模块：负责将 URL 加载转换成 HTML 内容。封装的类包括 AsyncHtmlLoader 类、AsyncChromiumLoader 类等。
Transforming 模块：负责将 HTML 内容转换成需要的纯文本。封装的类包括 HTML2Text 类、BeautifulSoup 类等。

0.1 Loading 模块简介

AsyncHtmlLoader：使用 aiohttp 库生成异步 HTTP 请求，适用于更简单、轻量级的抓取场景。它适合静态页面，响应速度快，资源消耗低。
AsyncChromiumLoader：使用 Playwright 启动 Chromium 实例，该实例可以处理 JavaScript 渲染和更复杂的 Web 交互。Chromium 是 Playwright 支持的浏览器之一，Playwright 是一个用于控制浏览器自动化的库。此方式适合动态加载内容的网站。

0.2 Transforming 模块简介

HTML2Text：将 HTML 内容直接转换为纯文本，而无需任何特定的标记操作。它最适合于目标是提取人类可读文本而不需要操作特定 HTML 元素的场景。
Beautiful Soup：对 HTML 内容提供了更细粒度的控制，支持特定的标记提取、删除和内容清理。它适用于需要提取特定信息并根据需要清理 HTML 内容的情况。

1. 快速上手 - Quick Start

1.1 环境准备

在开始之前，请确保已安装必要的依赖库：

pip install langchain langchain-community beautifulsoup4 playwright
playwright install chromium

1.2 Demo 代码

以下示例演示了如何使用 AsyncChromiumLoader 加载 URL，并使用 BeautifulSoupTransformer 提取特定标签内容。

urls = ["https://mp.weixin.qq.com/s/Zklc3p5uosXZ7XMHD1k2QA"]

from langchain_community.document_loaders import AsyncChromiumLoader
from langchain_community.document_transformers import BeautifulSoupTransformer


loader = AsyncChromiumLoader(urls)
html_docs = loader.load()

()
 doc  html_docs:
    (doc.page_content[:])  


bs_transformer = BeautifulSoupTransformer()
docs_transformed = bs_transformer.transform_documents(html_docs, tags_to_extract=[])

()
 doc  docs_transformed:
    (doc.page_content)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

docs_transformed = bs_transformer.transform_documents(
    html_docs, 
    tags_to_extract=["span", "code", "p", "div", "article"]
)

def scraping_with_extraction():
    from langchain_openai import ChatOpenAI
    from langchain.chains import create_extraction_chain
    from langchain.text_splitter import RecursiveCharacterTextSplitter
    from langchain_community.document_loaders import AsyncChromiumLoader
    from langchain_community.document_transformers import BeautifulSoupTransformer
    import pprint

    # 初始化 LLM
    llm = ChatOpenAI(temperature=0, model="gpt-3.5-turbo-0613")
    
    # 定义 Schema
    schema = {
        "properties": {
            "article_title": {"type": "string"},
            "article_content": {"type": "string"},
            "article_example_python_code": {"type": "string"},
        },
        "required": ["article_title", "article_content", "article_example_python_code"],
    }

    def extract(content: str, schema: dict):
        return create_extraction_chain(schema=schema, llm=llm).run(content)
    
    def scrape_with_playwright(urls, schema):
        loader = AsyncChromiumLoader(urls)
        docs = loader.load()
        bs_transformer = BeautifulSoupTransformer()
        docs_transformed = bs_transformer.transform_documents(
            docs, tags_to_extract=["span", "code", "p"]
        )
        print("Extracting content with LLM")

        # 分块处理，避免超出 Token 限制
        splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
            chunk_size=1000, chunk_overlap=0
        )
        splits = splitter.split_documents(docs_transformed)

        # 处理第一个分块
        extracted_content = extract(schema=schema, content=splits[0].page_content)
        pprint.pprint(extracted_content)
        return extracted_content

    urls = ["https://example.com/article"]
    extracted_content = scrape_with_playwright(urls, schema=schema)
    
scraping_with_extraction()

schema = {
    "properties": {
        "文章标题": {"type": "string", "description": "文章题目，通常为一级标题 h1 内容"},
        "文章正文全部内容": {"type": "string", "description": "文章的正文内容，不要包含 Python 代码，只输出文字，去除无关广告"},
        "文章中的示例 Python 代码": {"type": "string", "description": "文章中的 Python 代码，只输出代码，用 markdown 格式输出，可能存在多段代码，多段代码之间分开"},
    },
    "required": ["文章标题", "文章正文全部内容", "文章中的示例 Python 代码"],
}

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
    "Accept-Language": "zh-CN,zh;q=0.9"
}
# 注意：不同 Loader 配置 Headers 的方式可能不同，需查阅对应文档

import time
from requests.exceptions import RequestException

try:
    loader = AsyncChromiumLoader(urls)
    html_docs = loader.load()
except Exception as e:
    print(f"Loading failed: {e}")
    time.sleep(5) # 等待后重试

特性	传统标签提取 (BS/HTML2Text)	LLM Function Calling 提取
准确性	依赖标签结构，结构变动易失效	语义理解强，适应结构变化
成本	极低，本地计算	高，消耗 Token 和 API 费用
速度	快	慢，受限于 LLM 响应时间
维护性	需定期调整 tags	仅需更新 Schema 描述
适用场景	结构稳定的新闻站、博客	复杂、动态、非结构化网页

LangChain 实战：URL 加载与网页内容爬虫封装

LangChain 实战：URL 加载与网页内容爬虫封装

0. LangChain 接口架构

0.1 Loading 模块简介

0.2 Transforming 模块简介

1. 快速上手 - Quick Start

1.1 环境准备

1.2 Demo 代码

更多推荐文章

相关免费在线工具

1.3 代码解释

1.4 效果分析与改善

原始提取结果

HTML 常用标签说明

优化提取策略

1.5 如何确认 `tags_to_extract` 的参数

2. 高级方法 - 使用大模型的 Function Calling 提取所需文本

2.1 Demo 代码

2.2 代码详解

2.3 优化 Schema 描述

3. 最佳实践与注意事项

3.1 请求头设置

3.2 错误处理与重试

3.3 性能优化

4. 方案对比与总结

结论

更多推荐文章

相关免费在线工具

LangChain 实战：URL 加载与网页内容爬虫封装

LangChain 实战：URL 加载与网页内容爬虫封装

0. LangChain 接口架构

0.1 Loading 模块简介

0.2 Transforming 模块简介

1. 快速上手 - Quick Start

1.1 环境准备

1.2 Demo 代码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.3 代码解释

1.4 效果分析与改善

原始提取结果

HTML 常用标签说明

优化提取策略

1.5 如何确认 tags_to_extract 的参数

2. 高级方法 - 使用大模型的 Function Calling 提取所需文本

2.1 Demo 代码

2.2 代码详解

2.3 优化 Schema 描述

3. 最佳实践与注意事项

3.1 请求头设置

3.2 错误处理与重试

3.3 性能优化

4. 方案对比与总结

结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.5 如何确认 `tags_to_extract` 的参数