前端 AJAX 原理与动态页面爬虫实战思路 | 极客日志

Python大前端算法

前端 AJAX 原理与动态页面爬虫实战思路

现代网站普遍采用 AJAX 技术异步加载数据，传统静态爬虫失效。文章解析前端三大核心基础，深入讲解 AJAX 原理及与传统请求的区别。提供通过浏览器开发者工具检测 AJAX 和 WebSocket 的具体方法，并给出三种主流爬虫解决方案：直接调用 API（处理鉴权与加密）、模拟浏览器执行 JS（Selenium/Playwright）以及 WebSocket 协议抓取。涵盖从理论分析到 Python 代码实战的完整流程，帮助解决动态页面数据获取难题。

雾岛听风发布于 2026/4/7更新于 2026/7/2136 浏览

如今绝大多数网站都采用了 AJAX 技术，这意味着传统的静态 HTML 爬虫往往失效。要搞定动态页面，得先理解前端数据是如何加载的。这里梳理一下核心知识，并给出实战方案。

前端基础回顾

前端开发的三大基石是 HTML、CSS 和 JavaScript。简单说，HTML 搭骨架，CSS 做皮肤，JS 管行为。

HTML：构建骨架

本质是标记语言，通过标签描述页面元素。比如标题、段落、链接等。

<!DOCTYPE html>
<html>
<head><title>网页标题</title></head>
<body>
  <h1>Hello World</h1>
  <p>这是一个网页</p>
</body>
</html>

CSS：负责样式

控制颜色、字体、布局、动画及响应式设计。配合类名使用更灵活。

.title {
  color: blue;
  font-size: 30px;
}

JavaScript：驱动交互

负责动态效果、用户交互、请求服务器数据以及操作 DOM。这是 AJAX 的核心载体。

function changeText() {
  document.getElementById("text").innerText = "Hello JS";
}

三者结合的例子：一个按钮，HTML 定义结构，CSS 美化，JS 处理点击逻辑。

<button id=>点击

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

// 1. 创建对象
const xhr = new XMLHttpRequest();
// 2. 配置请求：GET 方式，目标地址，是否异步
xhr.open('GET', 'https://jsonplaceholder.typicode.com/todos/1', true);
// 3. 监听状态变化
xhr.onreadystatechange = function() {
  // readyState=4 完成，status=200 成功
  if (xhr.readyState === 4 && xhr.status === 200) {
    const data = JSON.parse(xhr.responseText);
    console.log('请求成功：', data);
    // 4. 更新页面内容
    document.getElementById('result').innerHTML = `
      <p>任务标题：${data.title}</p>
      <p>是否完成：${data.completed ? '是' : '否'}</p>
    `;
  }
};
// 5. 发送请求
xhr.send();

fetch('https://jsonplaceholder.typicode.com/todos/1')
  .then(response => {
    if (!response.ok) throw new Error('请求失败：' + response.status);
    return response.json();
  })
  .then(data => {
    console.log('Fetch 成功：', data);
    document.getElementById('result').innerHTML = `
      <p>任务 ID：${data.id}</p>
      <p>任务标题：${data.title}</p>
    `;
  })
  .catch(error => {
    console.error('出错：', error);
    document.getElementById('result').innerHTML = '<p>请求失败，请重试</p>';
  });

import requests
url = "https://api.xxx.com/gold"
res = requests.get(url).json()
print(res)

headers = {
    "User-Agent": "...",
    "Referer": "...",
    "Cookie": "..."
}
requests.get(url, headers=headers)

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch(headless=False)
    page = browser.new_page()
    page.goto("目标网址")
    
    # 监听 WebSocket 消息
    def handle_message(msg):
        print("收到 WS 数据:", msg)
    
    page.on("websocket", lambda ws: ws.on("framereceived", handle_message))
    input("按回车结束...")

import websocket

def on_message(ws, message):
    print("实时数据:", message)

ws = websocket.WebSocketApp(
    "wss://xxx.com/socket",
    header={"Cookie": "你的 cookie"},
    on_message=on_message
)
ws.run_forever()

前端 AJAX 原理与动态页面爬虫实战思路

前端基础回顾

HTML：构建骨架

CSS：负责样式

JavaScript：驱动交互

更多推荐文章

相关免费在线工具

AJAX 深度解析

什么是 AJAX

核心特点

传统请求 vs AJAX

代码实现方式

原生 XMLHttpRequest

现代方案 Fetch API

爬虫实战：如何识别与抓取

第一步：判断是否使用了 AJAX

第二步：解决方案

方案 1：直接调用 API（最优）

方案 2：模拟浏览器执行 JS

第三步：WebSocket 协议抓取

如何识别

抓取方法

更多推荐文章

相关免费在线工具

前端 AJAX 原理与动态页面爬虫实战思路

前端基础回顾

HTML：构建骨架

CSS：负责样式

JavaScript：驱动交互

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

AJAX 深度解析

什么是 AJAX

核心特点

传统请求 vs AJAX

代码实现方式

原生 XMLHttpRequest

现代方案 Fetch API

爬虫实战：如何识别与抓取

第一步：判断是否使用了 AJAX

第二步：解决方案

方案 1：直接调用 API（最优）

方案 2：模拟浏览器执行 JS

第三步：WebSocket 协议抓取

如何识别

抓取方法

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具