基于大模型的智能网页爬虫技术实现 | 极客日志

PythonAI算法

基于大模型的智能网页爬虫技术实现

综述由AI生成介绍如何利用 Python 结合通义千问大模型构建智能网页爬虫。通过 requests 获取网页 HTML，利用 BeautifulSoup 提取原始内容，再借助大模型 API 将非结构化数据转换为结构化 JSON 信息。该方法降低了传统正则匹配的难度，适用于复杂页面数据的快速提取。文章详细阐述了环境搭建、Prompt 设计、API 调用及响应解析等关键步骤，并提供了包含错误处理和安全性建议的完整代码示例。

涅槃凤凰发布于 2025/2/6更新于 2026/6/241 浏览

基于大模型的智能网页爬虫技术实现

引言

在数字化时代，数据是核心资产。传统的网页爬虫依赖正则表达式或固定的 DOM 选择器，面对动态加载、反爬机制复杂或结构多变的页面时往往维护成本高且易失效。结合人工智能生成内容（AIGC）与大语言模型（LLM），我们可以利用其强大的语义理解能力，将非结构化的 HTML 内容转化为结构化的 JSON 数据，从而构建更智能、适应性更强的爬虫系统。

本文将以 Python 为基础，结合通义千问大模型 API，演示如何构建一个能够自动提取网页信息的智能爬虫。

环境准备

首先，确保已安装 Python 3.8+ 环境。我们需要安装以下第三方库：

requests：用于发送 HTTP 请求。
beautifulsoup4：用于解析 HTML 文档。
dashscope：阿里云通义千问 SDK。
json：Python 内置库，用于处理 JSON 数据。

安装命令如下：

pip install requests beautifulsoup4 dashscope

建议创建虚拟环境以隔离依赖：

python -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate

获取网页内容

爬虫的第一步是获取目标页面的 HTML 源码。为了模拟浏览器行为并降低被拦截的风险，需要设置合理的请求头（Headers），特别是 User-Agent。

import requests
from bs4 import BeautifulSoup

def fetch_html_content(url, timeout=10):
    """
    发送 HTTP 请求获取网页 HTML 内容
    :param url: 目标网址
    :param timeout: 超时时间（秒）
    :return: HTML 字符串，失败返回 None
    """
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
                      '(KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'Connection': 'keep-alive'
    }

    try:
        response = requests.get(url, headers=headers, timeout=timeout)
        response.raise_for_status()  # 检查 HTTP 状态码是否成功
        response.encoding = response.apparent_encoding
        return response.text
    except requests.exceptions.RequestException  e:
        ()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

def extract_target_section(html_content, selector='#wrapper #content .article .item'):
    soup = BeautifulSoup(html_content, 'html.parser')
    items = soup.select(selector)
    
    if not items:
        return ""
    
    # 仅提取前几项作为示例，避免 Token 溢出
    return ''.join([item.prettify() for item in items[:5]])

def build_prompt(raw_html):
    prompt = f"""
你是一名资深的数据分析师。请分析以下 HTML 片段中的电影信息。

HTML 内容：
{raw_html}

请提取以下字段：
1. name: 电影名称
2. picture: 封面图片链接
3. info: 剧情简介
4. score: 评分
5. commentsNumber: 评论人数

要求：
- 仅返回标准的 JSON 数组格式，不要包含 markdown 代码块标记（如 ```json）。
- 如果某个字段缺失，请使用 null 表示。
- 属性名必须与上述列表一致。
"""
    return prompt

import os
import dashscope
from dashscope import Generation

def call_llm_api(prompt, api_key=None):
    """
    调用通义千问 API
    :param prompt: 用户提示词
    :param api_key: API Key
    :return: 模型返回的文本内容
    """
    if api_key:
        dashscope.api_key = api_key
    else:
        # 尝试从环境变量读取
        dashscope.api_key = os.getenv('DASHSCOPE_API_KEY')
        if not dashscope.api_key:
            raise ValueError("未找到 API Key，请设置 DASHSCOPE_API_KEY 环境变量")

    messages = [
        {'role': 'user', 'content': prompt}
    ]

    try:
        response = Generation.call(
            model=dashscope.Generation.Models.qwen_turbo,
            messages=messages,
            result_format='message'  # 返回消息格式
        )
        
        if response.status_code == 200:
            return response.output.choices[0].message.content
        else:
            print(f"API 调用错误：{response.code} - {response.message}")
            return None
    except Exception as e:
        print(f"发生异常：{e}")
        return None

import json
import re

def parse_llm_response(response_text):
    """
    清理并解析 LLM 返回的 JSON 数据
    """
    if not response_text:
        return []

    # 移除 markdown 代码块标记
    cleaned_text = re.sub(r'```json\s*|\s*```', '', response_text.strip())
    
    try:
        data = json.loads(cleaned_text)
        if isinstance(data, list):
            return data
        else:
            print("返回的不是数组格式")
            return []
    except json.JSONDecodeError as e:
        print(f"JSON 解析失败：{e}")
        return []

def main():
    target_url = 'http://movie.douban.com/chart'
    
    # 1. 获取 HTML
    html = fetch_html_content(target_url)
    if not html:
        print("无法获取网页内容")
        return

    # 2. 提取关键区域
    raw_html = extract_target_section(html)
    
    # 3. 构建 Prompt
    prompt = build_prompt(raw_html)
    
    # 4. 调用 API
    llm_output = call_llm_api(prompt)
    
    # 5. 解析结果
    if llm_output:
        movie_data = parse_llm_response(llm_output)
        print(f"成功提取 {len(movie_data)} 条数据")
        for movie in movie_data:
            print(f"电影：{movie.get('name')} | 评分：{movie.get('score')}")
    else:
        print("未能获取有效数据")

if __name__ == '__main__':
    main()

基于大模型的智能网页爬虫技术实现

基于大模型的智能网页爬虫技术实现

引言

环境准备

获取网页内容

更多推荐文章

相关免费在线工具

设计 Prompt 提示词

调用大模型 API

解析响应数据

完整流程整合

最佳实践与安全建议

结语

更多推荐文章

相关免费在线工具

基于大模型的智能网页爬虫技术实现

基于大模型的智能网页爬虫技术实现

引言

环境准备

获取网页内容

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

设计 Prompt 提示词

调用大模型 API

解析响应数据

完整流程整合

最佳实践与安全建议

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具