爬虫技术演进：从传统编程到 AI 大模型应用 | 极客日志

编程语言Node.jsAI大前端算法

爬虫技术演进：从传统编程到 AI 大模型应用

综述由AI生成对比了传统爬虫编程与基于 AI 大模型（如通义千问、OpenAI）的爬虫实现方式。通过豆瓣电影数据爬取示例，展示了使用 Cheerio 和 BeautifulSoup 的传统流程，以及利用 Prompt 工程让大模型解析 HTML 并提取结构化数据的方案。文章还分析了 Python 与 JavaScript 在异步处理、类型系统及生态上的差异，探讨了 AI 辅助编程如何提升开发效率及扩展情感分析等智能功能的可能性，并补充了提示词优化、安全合规及错误处理的最佳实践。

林间仙子发布于 2025/2/6更新于 2026/6/220 浏览

前言

网络爬虫（Web Crawler）是自动化获取网页数据的核心技术，主要依靠编写代码解析网页结构并模拟浏览器行为。随着人工智能技术的发展，尤其是大型语言模型（LLM）的兴起，为爬虫技术带来了新的范式。与传统的硬编码模式不同，结合 AI 大模型与提示词工程（Prompt Engineering），可以显著提高开发效率，实现更智能的数据解析和提取。

前置知识

在深入讲解之前，我们需要明确爬虫的基本流程。以爬取豆瓣电影 Top250 数据为例，目标是从 HTML 结构中定位并提取电影名称、评分、简介等信息。

传统爬虫实现

核心思路

传统编程方式通常遵循以下步骤：

发起请求：使用 HTTP 库（如 Python 的 requests 或 JavaScript 的 axios）向目标 URL 发送请求。
接收响应：获取服务器返回的 HTML 内容（字符串或字节流）。
解析 HTML：利用解析器（如 BeautifulSoup, Cheerio, lxml）构建 DOM 树。
选择元素：通过 CSS 选择器或 XPath 定位包含数据的节点。
提取数据：从节点中获取文本、属性值等。
数据处理：清洗脏数据、格式化、去重。
存储数据：写入文件、数据库或 API。
循环处理：处理分页或列表页。

代码示例（JavaScript）

以下是一个基于 Node.js 环境爬取豆瓣电影 Top250 的完整示例，使用了 request-promise 和 cheerio。

// 引入所需模块
const request = require('request-promise');
const cheerio = require('cheerio');
const fs = require('fs').promises;

// 存储电影信息的数组
let movies = [];

// 豆瓣电影 Top250 的基础 URL
const basicUrl = 'https://movie.douban.com/top250';

// 解析电影信息的函数
function getMovieInfo(node) {
  const $ = cheerio.load(node);
  // 选择标题元素
  const titles = $('.info .hd span').( $(el).()).();
   bd = $();
  
   info = bd.().().();
  
   score = bd.().().();
   { : titles[] || , info, score };
}


  () {
   {
     html =  ({ url });
    .();
     $ = cheerio.(html);
     movieNodes = $();
     movieList = [];
    movieNodes.( {
      movieList.((node));
    });
     movieList;
  }  (error) {
    .(, error.);
     [];
  }
}


  () {
   count = ; 
   list = [];
  
   ( i = ; i < count; i++) {
     url = ;
     pageData =  (url, i);
    list.(...pageData);
    
      ( (resolve, ));
  }
  
  .();
  
   fs.(, .(list, , ), );
  .();
}

().(.);

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

import requests
from bs4 import BeautifulSoup
import dashscope
import json

# 设置 API Key（请替换为您的实际密钥）
dashscope.api_key = 'YOUR_API_KEY'

def fetch_movie_list(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }
    response = requests.get(url, headers=headers, timeout=10)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        # 仅提取前几部电影作为上下文，节省 Token
        movies = soup.select('#wrapper #content .article .item')[:2]
        all_movies_text = ''.join([movie.prettify() for movie in movies])
        return all_movies_text
    else:
        print("Failed to retrieve content")
        return ""

url = 'https://movie.douban.com/chart'
movies_html = fetch_movie_list(url)

# 构建提示信息
prompt = f"""
这是一个电影列表的 HTML 片段：
{movies_html}

任务：从中提取电影名（name）、封面链接（picture）、简介（info）、评分（score）、评论人数（commentsNumber）。
要求：只返回一个标准的 JSON 数组，不要包含 Markdown 格式或其他解释性文字。
"""

def call_qwen_with_prompt():
    messages = [
        {'role': 'user', 'content': prompt}
    ]
    try:
        response = dashscope.Generation.call(
            model=dashscope.Generation.Models.qwen_turbo,
            messages=messages
        )
        if response.status_code == 200:
            result = response.output.choices[0].message.content
            # 尝试解析 JSON
            data = json.loads(result)
            print(data)
        else:
            print(f"API Error: {response.code}, {response.message}")
    except Exception as e:
        print(f"Processing Error: {e}")

call_qwen_with_prompt()

const OpenAI = require('openai');
require('dotenv').config();

const client = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY,
  baseURL: 'https://api.chatanywhere.tech/v1' // 代理地址示例
});

async function analyzeSentiment() {
  const prompt = `
判断一下的用户情感是正面还是负面的
评论：买的银色版真的好看，一天就到了，晚上就开始拿起来玩，系统很丝滑流畅，做工扎实，手感细腻，很精致哦，华为一如既往好品质
情感：正面
评论：随意降价，不予保价，服务态度差
情感：负面

评论：小狗很可爱，但是动物毛发过敏
情感:
  `;

  const chatCompletions = await client.chat.completions.create({
    model: 'gpt-3.5-turbo',
    messages: [{ role: 'user', content: prompt }],
    n: 1,
  });

  console.log(chatCompletions.choices[0].message.content);
}

analyzeSentiment();

特性	Python	JavaScript
语言类型	通用编程语言，语法简洁，适合脚本和数据分析	Web 开发主导，全栈能力，前端交互必备
编程范式	支持多范式（面向过程、面向对象、函数式）	面向对象为主，支持函数式编程
异步编程	使用 `asyncio`，模型相对复杂	原生支持 `Promise` 和 `async/await`，生态成熟
类型系统	动态强类型	动态弱类型，推断能力强
爬虫生态	`requests`, `scrapy`, `selenium` 极其丰富	`axios`, `cheerio`, `puppeteer` 表现优秀

爬虫技术演进：从传统编程到 AI 大模型应用

前言

前置知识

传统爬虫实现

核心思路

代码示例（JavaScript）

更多推荐文章

相关免费在线工具

运用 AI 大模型辅助爬虫

核心思路

代码示例（Python + 通义千问）

运用 OpenAI 分析用户评论情感

步骤说明

代码示例（Node.js）

Python 与 JavaScript 对比

最佳实践与注意事项

1. 提示词工程优化

2. 安全与合规

3. 错误处理

总结

更多推荐文章

相关免费在线工具

爬虫技术演进：从传统编程到 AI 大模型应用

前言

前置知识

传统爬虫实现

核心思路

代码示例（JavaScript）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

运用 AI 大模型辅助爬虫

核心思路

代码示例（Python + 通义千问）

运用 OpenAI 分析用户评论情感

步骤说明

代码示例（Node.js）

Python 与 JavaScript 对比

最佳实践与注意事项

1. 提示词工程优化

2. 安全与合规

3. 错误处理

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具