爬虫与大模型结合实践：从基础提取到框架应用 | 极客日志

PythonAI

爬虫与大模型结合实践：从基础提取到框架应用

综述由AI生成探讨了将大模型能力与网络爬虫结合的技术方案。通过测试大模型对豆瓣电影页面 HTML 的数据提取效果，验证了直接调用 API 的可行性。随后介绍了基于 ScrapeGraphAI 框架的简化实现方式。文章对比了两种方法的代码复杂度与适用场景，并分析了在 Token 限制、反爬策略及成本方面的潜在挑战，为开发者提供构建智能爬虫的参考路径。

ArchDesign发布于 2025/2/6更新于 2026/5/110 浏览

爬虫与大模型结合实践：从基础提取到框架应用

爬虫与大模型结合实践：从基础提取到框架应用

最近在学习大模型，之前我有过一段时间爬虫开发经验。在学习大模型的过程中，突发奇想能否将大模型的能力结合爬虫，搞个 AI 爬虫玩一玩。

一、大模型数据提取能力测试

说干就干，先测试一下大模型的数据提取能力。我们选取一段豆瓣电影列表的 HTML 片段作为测试对象。

<table width="100%" class="">
    <tbody><tr class="item">
        <td width="100" valign="top">
                <a class="nbg" href="https://movie.douban.com/subject/34453198/" title="梦境">
                    <img src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2910694617.webp" width="75" alt="梦境" class="">
                </a>
        </td>
        <td valign="top">    
            <div class="pl2">
                <a href="https://movie.douban.com/subject/34453198/" =>
                    梦境
                    / 仙境 / Wonderland
                
                2024-06-05(韩国) / 汤唯 / 裴秀智 / 朴宝剑 / 郑有美 / 崔宇植 / 孔刘 / 鲍起静 / 崔武成 / 全秀芝 / 韩国 / 金泰勇 / 113 分钟 / 梦境 / 剧情 / 爱情 / 科幻 / 金泰勇 Tae-Yong Kim / 韩语 / 英语 / 汉语普通话             
                    
                            
                            6.4
                            (6899 人评价)

这是一段电影列表，去获取电影名（name),封面链接（picture),简介（info),评分（score), 评论人数（commetsNumber),请使用括号的单词作为属性名，以 JSON 数组的格式返回

[
    {
        "name": "梦境",
        "picture": "https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2910694617.webp",
        "info": "2024-06-05(韩国) / 汤唯 / 裴秀智 / 朴宝剑 / 郑有美 / 崔宇植 / 孔刘 / 鲍起静 / 崔武成 / 全秀芝 / 韩国 / 金泰勇 / 113 分钟 / 梦境 / 剧情 / 爱情 / 科幻 / 金泰勇 Tae-Yong Kim / 韩语 / 英语 / 汉语普通话",
        "score": "6.4",
        "commentsNumber": "6899 人评价"
    },
    {
        "name": "犯罪都市 4",
        "picture": "https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2903301473.webp",
        "info": "2024-02-23(柏林电影节) / 2024-04-24(韩国) / 马东锡 / 金武烈 / 李东辉 / 朴智焕 / 李主傧 / 金敏载 / 金英熊 / 韩国 / 许明行 / 110 分钟 / 犯罪都市 4 / 动作 / 犯罪 / 惊悚 / 吴相浩 Sang-ho Oh / 韩语 / 英语 / 菲律宾语 / 汉语普通话",
        "score": "6.6",
        "commentsNumber": "23916 人评价"
    }
]

import requests
from openai import OpenAI
from dotenv import load_dotenv

load_dotenv()

# 需要配置自己的 api_key
client = OpenAI()

url = "https://movie.douban.com/chart"

header = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36"
}
response = requests.get(url, headers=header)

def get_completion(prompt, model="gpt-3.5-turbo"):
    messages = [{"role": "user", "content": prompt}]
    response = client.chat.completions.create(
        model=model,
        messages=messages,
        temperature=0,  # 模型输出的随机性，0 表示随机性最小
    )
    return response.choices[0].message.content

# 注意：如果将所有获取到的页面 HTML 都交给大模型，token 数量可能会超限
prompt = "{} 这是一部电影的 html 片段。获取需要电影名（name）,封面链接（picture）,简介 (info), 评分（score）,评论人数（commentsNumber）。请使用括号的单词作为属性名，以 JSON 数组的格式返回".format(response.text)

print(get_completion(prompt))

import os
from dotenv import load_dotenv
from scrapegraphai.graphs import SmartScraperGraph
from scrapegraphai.utils import prettify_exec_info
import json

# 从.env 加载环境变量
load_dotenv()

# 从环境变量加载 openai key
openai_key = os.getenv("OPENAI_APIKEY")

# 配置 SmartScraperGraph
graph_config = {
   "llm": {
      "api_key": openai_key,
      "model": "gpt-3.5-turbo",
   },
}

# 创建 SmartScraperGraph 并运行
smart_scraper_graph = SmartScraperGraph(
   prompt="获取需要电影名（name）,封面链接（picture）,简介 (info), 评分（score）,评论人数（commentsNumber）。请使用括号的单词作为属性名，以 JSON 数组的格式返回",
   # 接收一个 html 网页页面
   source="https://movie.douban.com/chart",
   config=graph_config
)

# 执行爬虫并保存结果
result = smart_scraper_graph.run()
with open("results.json", 'w', encoding='utf-8') as f:
      json.dump(result, f, indent=4)