Python 与大模型结合实现网页数据爬虫实战 | 极客日志

PythonAI算法

Python 与大模型结合实现网页数据爬虫实战

介绍在 Google Colab 环境下，使用 Python 的 requests 和 BeautifulSoup 库抓取豆瓣电影数据，并结合阿里云 Dashscope 平台的 Qwen Turbo 大模型进行非结构化数据的智能提取。内容涵盖环境配置、爬虫逻辑编写、API 调用及提示词工程，同时对比了 Python 与 JavaScript 在爬虫开发中的差异，提供了完整的代码示例与最佳实践建议。

beaabea发布于 2025/2/6更新于 2026/7/1043 浏览

Python 与大模型结合实现网页数据爬虫实战

前言

在数字化时代，数据挖掘与分析能力已成为开发者的重要技能。传统的网络爬虫主要依赖规则匹配（如正则表达式或 CSS 选择器）来提取结构化数据，但在面对非结构化或半结构化的 HTML 内容时，往往需要复杂的解析逻辑。随着大语言模型（LLM）技术的发展，我们可以利用其强大的语义理解能力，将爬取的原始 HTML 直接转化为结构化的 JSON 数据，从而简化数据处理流程。

本文旨在介绍如何在 Google Colab 云端环境中，使用 Python 编写爬虫脚本抓取豆瓣电影数据，并结合阿里云 Dashscope 平台上的 Qwen Turbo 模型进行高级信息提取。我们将展示从环境配置、数据获取、HTML 解析到智能分析的全过程，同时对比 Python 与 JavaScript 在爬虫开发中的差异，提供一套完整的工程化实践方案。

环境准备：Google Colab

Google Colab 是一个免费的云端 Jupyter Notebook 平台，无需配置本地 Python 环境即可运行代码，特别适合快速原型开发和机器学习实验。

访问与登录：访问 Colab 官网，使用 Google 账号登录。若在网络受限环境下，需确保网络连接正常。
创建笔记本：点击左上角'文件'菜单，选择'新建笔记本'。
添加代码单元格：点击工具栏中的'+ 代码'按钮，即可开始编写 Python 代码。
运行环境：Colab 默认提供 CPU 和 GPU 资源，对于本教程的爬虫任务，CPU 模式已足够满足需求。

核心库安装与引入

1. 安装依赖库

我们需要三个主要库：requests 用于发送 HTTP 请求，beautifulsoup4 用于解析 HTML，dashscope 用于调用阿里云大模型 API。

!pip install requests
!pip install beautifulsoup4
!pip install dashscope

执行上述命令后，等待安装完成提示。

2. 引入模块

import requests
from bs4 import BeautifulSoup
import dashscope
from dashscope import Generation
import json
import time

爬虫实现步骤

第一步：构建请求头与获取页面

为了模拟浏览器行为并避免被目标网站拦截，必须设置 User-Agent 请求头。可以通过浏览器的开发者工具查看当前浏览器的 User-Agent 字符串。

def fetch_movie_list(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
                      '(KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'
    }
    
    try:
        response = requests.get(url, headers=headers, timeout=)
         response.status_code == :
             response.text
        :
            ()
             
     Exception  e:
        ()
         

url = 
movies_html = fetch_movie_list(url)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

if movies_html:
    soup = BeautifulSoup(movies_html, 'html.parser')
    # 定位电影列表容器
    movie_items = soup.select('#wrapper #content .article .item')
    
    # 仅提取前两部电影作为示例
    target_movies = movie_items[:2]
    all_movies_text = ''.join([movie.prettify() for movie in target_movies])
    
    print("Extracted HTML Preview:")
    print(all_movies_text[:500])
else:
    print("No data retrieved.")

prompt = f"""
以下是豆瓣电影页面的部分 HTML 内容：
{all_movies_text}

请从中提取以下字段：
- name: 电影名称
- picture: 封面图片链接
- info: 剧情简介
- score: 评分
- commentsNumber: 评论人数

要求：
1. 只提取前两部电影的完整信息。
2. 属性名必须使用括号内的英文单词。
3. 以标准的 JSON 数组格式返回，不要包含 Markdown 标记。
"""
print(prompt)

# 替换为你的实际 API Key
# 建议通过 os.environ.get('DASHSCOPE_API_KEY') 获取
dashscope.api_key = 'sk-xxxxxxxxxxxxxxxxxxxxxx' 

def call_qwen_with_prompt():
    messages = [
        {'role': 'user', 'content': prompt}
    ]
    
    try:
        response = Generation.call(
            model=Generation.Models.qwen_turbo,
            messages=messages,
            result_format='message'
        )
        
        if response.status_code == 200:
            content = response.output.choices[0].message.content
            print("Model Response:")
            print(content)
            return content
        else:
            print(f"API Error: {response.code} - {response.message}")
            return None
    except Exception as e:
        print(f"Exception occurred: {e}")
        return None

llm_output = call_qwen_with_prompt()

if llm_output:
    import re
    # 移除 markdown 标记
    clean_json_str = re.sub(r'^```json\s*|\s*```$', '', llm_output.strip(), flags=re.MULTILINE)
    try:
        data = json.loads(clean_json_str)
        print("Parsed Data:")
        print(json.dumps(data, ensure_ascii=False, indent=2))
    except json.JSONDecodeError as e:
        print(f"JSON Parsing Error: {e}")

import random
import time

time.sleep(random.uniform(1, 3))

Python 与大模型结合实现网页数据爬虫实战

Python 与大模型结合实现网页数据爬虫实战

前言

环境准备：Google Colab

核心库安装与引入

1. 安装依赖库

2. 引入模块

爬虫实现步骤

第一步：构建请求头与获取页面

更多推荐文章

相关免费在线工具

第二步：HTML 解析与数据定位

第三步：大模型 Prompt 设计

第四步：调用 Qwen Turbo 模型

第五步：结果清洗与存储

Python 与 JavaScript 爬虫对比

1. 执行环境与生态

2. 语法特性

3. 异步编程

4. 类型系统

最佳实践与注意事项

1. 遵守 Robots 协议

2. 请求频率控制

3. 异常处理与重试

4. 数据安全与隐私

总结

更多推荐文章

相关免费在线工具

Python 与大模型结合实现网页数据爬虫实战

Python 与大模型结合实现网页数据爬虫实战

前言

环境准备：Google Colab

核心库安装与引入

1. 安装依赖库

2. 引入模块

爬虫实现步骤

第一步：构建请求头与获取页面

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

第二步：HTML 解析与数据定位

第三步：大模型 Prompt 设计

第四步：调用 Qwen Turbo 模型

第五步：结果清洗与存储

Python 与 JavaScript 爬虫对比

1. 执行环境与生态

2. 语法特性

3. 异步编程

4. 类型系统

最佳实践与注意事项

1. 遵守 Robots 协议

2. 请求频率控制

3. 异常处理与重试

4. 数据安全与隐私

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具