从传统编程到 AI 大模型与 Prompt 驱动的爬虫技术 | 极客日志

编程语言Node.jsAI算法

从传统编程到 AI 大模型与 Prompt 驱动的爬虫技术

综述由AI生成对比了传统爬虫与基于 AI 大模型的爬虫实现方式。通过 JavaScript 和 Python 示例，展示了使用 Cheerio 等传统库解析 HTML 的步骤，以及利用通义千问和 OpenAI API 结合 Prompt 进行数据提取和情感分析的方法。文章还分析了 Python 与 JavaScript 在异步编程、类型系统等方面的区别，探讨了大模型如何提升爬虫效率及灵活性，为开发者提供了智能化数据获取的新思路。

黑客发布于 2025/2/7更新于 2026/5/3125 浏览

前言

爬虫主要依靠编写代码实现对网页结构的解析，通过模拟浏览器行为获取目标数据。随着人工智能技术的发展，LLM 大模型的出现为爬虫技术带来了新的思路。与传统的编程模式不同，使用 AI 大模型结合 Prompt 可以显著提高程序员的编程效率。通过结合人工智能和自然语言处理技术，开发者可以更加高效地编写爬虫代码，并实现对网页内容的智能解析和提取。

前置内容

本文以爬取豆瓣电影 Top250 数据为例进行讲解。

HTML 结构示意： [图片：HTML 结构示意]

传统爬虫

思路

传统编程爬取一个网页并获取数据的步骤如下：

发起请求：使用适当的库或模块（如 axios, request, http 等）向目标网站发起 HTTP 请求，获取网页的 HTML 内容。
接收响应：接收到网页的 HTML 内容，通常是作为字符串或字节流的形式。
解析 HTML：使用适当的 HTML 解析器（如 cheerio, jsdom, htmlparser2 等）对获取的 HTML 内容进行解析，形成可操作的 DOM 树或类似的数据结构。
选择元素：通过 DOM 操作方法或选择器语法选择出包含目标数据的 HTML 元素。
提取数据：从选中的 HTML 元素中提取所需的数据，如文本、属性值等。
处理数据：对提取的数据进行必要的处理，如清洗、筛选、转换格式等。
存储数据：将处理后的数据存储到合适的数据结构中，如数组、对象、数据库等。
循环处理：根据需要，可能需要循环执行上述步骤以处理多个页面或多个数据源。
结果输出：将最终结果输出到合适的位置，如文件、数据库、API 等。

代码实现 (JavaScript)

// 引入所需模块
let request = require('request-promise') // 用于发起 HTTP 请求
let cheerio = require('cheerio') // 用于解析 HTML
let fs = require('fs') // 用于文件操作
const util = require('util')

// 存储电影信息的数组
let movies = []

// 豆瓣电影 Top250 的基础 URL
let basicUrl = 'https://movie.douban.com/top250'

// 用于确保回调函数只执行一次的函数
let once = function (cb) {
   active = 
   (!active) {
    ()
    active = 
  }
}


 () {
  ( {
    .(item)
  })
}


 () {
   $ = cheerio.(node) 
   titles = $() 
  titles = ([])..(titles,  {
     $(t).() 
  })
   bd = $() 
   info = bd.().() 
   score = bd.().() 
   { titles, info, score } 
}


  () {
   html =  ({
    url
  }) 
  .(, )
   $ = cheerio.(html) 
   movieNodes = $().() 
   movieList = ([])..(movieNodes,  {
     (node) 
  })
   movieList 
}


  () {
   count =  
   list = []
  
   ( i = ; i < count; i++) {
     url = basicUrl +  
    list.(...  (url, i)) 
  }
  .(list.)
  
  fs.(, .(list), ,  {
    .()
  })
}

()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

import requests 
from bs4 import BeautifulSoup
import dashscope

def fetch_movie_list(url):
    # 设置 HTTP 请求头
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0'
    }
    # 发送 HTTP GET 请求获取页面内容
    response = requests.get(url, headers=headers)
    # 检查响应状态码
    if response.status_code == 200:
        # 使用 BeautifulSoup 解析 HTML 响应
        soup = BeautifulSoup(response.text, 'html.parser')
        movie_list = []
        # 使用 CSS 选择器提取电影信息
        movies = soup.select('#wrapper #content .article .item')
        # 提取前两部电影的 HTML 内容并拼接成字符串
        all_movies_text = ''.join([movie.prettify() for movie in movies[:2]])
        return all_movies_text
    else:
        print("Failed to retrieve content")

# 调用 fetch_movie_list 函数获取电影信息
url = 'https://movie.douban.com/chart'
movies = fetch_movie_list(url)
print(movies)

# 构建提示信息
prompt = f"""
{movies}这是一段电影列表，去获取电影名（name),封面链接（picture),简介（info),评分（score),
评论人数（commentsNumber),请使用括号的单词作为属性名，以 JSON 数组的格式返回
"""
print(prompt)

dashscope.api_key = '自己的密钥'

def call_qwen_with_prompt():
    messages = [
        {
            'role': 'user',
            'content': prompt
        }
    ]
    response = dashscope.Generation.call(
        dashscope.Generation.Models.qwen_turbo,
        messages=messages,
        result_messages='messages'
    )
    print(response)

call_qwen_with_prompt()

const OpenAI = require('openai')
require('dotenv').config();

const client = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY,
  baseURL: 'https://api.chatanywhere.tech/v1'
})

let prompt = `判断一下的用户情感是正面还是负面的
评论：买的银色版真的好看，一天就到了，晚上就开始拿起来玩，系统很丝滑流畅，
做工扎实，手感细腻，很精致哦，华为一如既往好品质
情感：正面
评论：随意降价，不予保价，服务态度差
情感负面
`

let myPrompt = `
${prompt}
评论：小狗很可爱，但是动物毛发过敏
情感:
`

const chatCompletions = await client.chat.completions.create({
  model: 'gpt-3.5-turbo',
  messages: [
    { role: 'user', content: myPrompt }
  ],
  n: 1,
})

// 引入所需的依赖
const OpenAI = require('openai'); // 引入 OpenAI Node.js SDK
require('dotenv').config(); // 引入 dotenv 库，用于加载环境变量

// 实例化 OpenAI 客户端
const client = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY, // 从环境变量中获取 OpenAI API 密钥
  baseURL: 'https://api.chatanywhere.tech/v1' // 设置 OpenAI API 的基本 URL
});

// 异步函数，用于执行主要逻辑
async function main() {
  // 设置要输入给模型的提示文本
  let prompt = `判断一下的用户情感是正面还是负面的
  评论：买的银色版真的好看，一天就到了，晚上就开始拿起来玩，系统很丝滑流畅，
  做工扎实，手感细腻，很精致哦，华为一如既往好品质
  情感：正面
  评论：随意降价，不予保价，服务态度差
  情感负面
  `;

  let myPrompt = `
  ${prompt}
  评论：小狗很可爱，但是动物毛发过敏
  情感:
  `;

  // 发送请求给 OpenAI API，获取聊天的回复
  const chatCompletions = await client.chat.completions.create({
    model: 'gpt-3.5-turbo', // 使用的模型版本
    messages: [{ role: 'user', content: myPrompt }], // 用户的消息
    n: 1 // 生成一条回复
  });

  // 打印返回的聊天回复
  console.log(chatCompletions.choices[0]);
}

main(); // 调用主函数执行主要逻辑

从传统编程到 AI 大模型与 Prompt 驱动的爬虫技术

前言

前置内容

传统爬虫

思路

代码实现 (JavaScript)

更多推荐文章

相关免费在线工具

运用通义千问大模型爬虫

思路

代码实现 (Python)

运用 OpenAI 分析用户评论情感

步骤

1. 引入依赖

2. 实例化 OpenAI 客户端

3. 定义输入文本

4. 调用 OpenAI 的 Chat Completions API

完整代码

Python VS JavaScript

区别

总结

更多推荐文章

相关免费在线工具

从传统编程到 AI 大模型与 Prompt 驱动的爬虫技术

前言

前置内容

传统爬虫

思路

代码实现 (JavaScript)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

运用通义千问大模型爬虫

思路

代码实现 (Python)

运用 OpenAI 分析用户评论情感

步骤

1. 引入依赖

2. 实例化 OpenAI 客户端

3. 定义输入文本

4. 调用 OpenAI 的 Chat Completions API

完整代码

Python VS JavaScript

区别

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具