前端 AJAX 详解与动态页面爬虫实战思路 | 极客日志

JavaScript大前端算法

前端 AJAX 详解与动态页面爬虫实战思路

前端三大核心及 AJAX 技术原理，包括 XMLHttpRequest 和 Fetch API 的使用。重点讲解了 AJAX 对传统爬虫的影响，提供了通过浏览器开发者工具判断 AJAX 请求的方法。针对 AJAX 和 WebSocket 数据抓取，给出了直接调用 API、模拟浏览器（Selenium/Playwright）及使用 websocket-client 等解决方案，并包含代码示例。

全栈工匠发布于 2026/4/5更新于 2026/7/2063 浏览

目前 80% 的网站都使用了 AJAX 技术，那么传统的爬虫通过 HTML 来获取数据就不行了，总结一下 AJAX 相关知识。

1、前端三大核心

前端开发的三大核心基础是 HTML、CSS 和 JavaScript。

HTML 负责搭建网页的结构与内容（结构）
CSS 负责网页的样式、布局和视觉效果（表现）
JavaScript 负责网页的交互、逻辑和数据处理（行为）

HTML（结构层）

本质上是标记语言（Markup Language），通过标签描述页面元素。

常见标签:

<h1>标题</h1><p>段落</p><a href="https://example.com">链接</a><img src="image.jpg"><div></div>

页面结构示例:

<!DOCTYPE html>
<html>
<head><title>网页标题</title></head>
<body>
<h1>Hello World</h1>
<p>这是一个网页</p>
</body>
</html>

CSS（表现层）

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online
JavaScript 压缩与混淆
Terser 压缩、变量名混淆，或 javascript-obfuscator 高强度混淆（体积会增大）。在线工具，JavaScript 压缩与混淆在线工具，online

h1{color: red;font-size: 30px;}

<h1 class="title">Hello</h1>

.title{color: blue;}

<button onclick="changeText()">点击</button><p id="text">Hello</p>

function changeText(){ 
    document.getElementById("text").innerText="Hello JS";
}

<!-- HTML 定义按钮 -->
<button id="btn">点击</button>
<style>
 button{ background:red; color:white;}
</style>
<script>
 document.getElementById("btn").onclick=function(){ alert("点击成功");}
</script>

// 1. 创建 XMLHttpRequest 对象（核心）
const xhr = new XMLHttpRequest();
// 2. 配置请求：请求方式、请求地址、是否异步（默认 true）
xhr.open('GET','https://jsonplaceholder.typicode.com/todos/1',true);
// 3. 监听请求状态变化（核心）
xhr.onreadystatechange=function(){
    // readyState=4 表示请求完成，status=200 表示响应成功
    if(xhr.readyState ===4&& xhr.status ===200){
        // 4. 处理服务器返回的数据（JSON 格式）
        const data =JSON.parse(xhr.responseText);
        console.log('请求成功，返回数据：', data);
        // 5. 局部更新页面（比如把数据显示到页面）
        document.getElementById('result').innerHTML =` <p>任务标题：${data.title}</p> <p>是否完成：${data.completed ?'是':'否'}</p> `;
    }
};
// 4. 发送请求
xhr.send();
// 页面中需要有一个容器来显示结果
// <div id="result"></div>

// 发起 GET 请求
fetch('https://jsonplaceholder.typicode.com/todos/1')
// 第一步：处理响应，转为 JSON 格式
.then(response=>{
    if(!response.ok){throw new Error('请求失败：'+ response.status);}
    return response.json();
})
// 第二步：使用数据，局部更新页面
.then(data=>{
    console.log('fetch 请求成功：', data);
    document.getElementById('result').innerHTML =` <p>任务 ID：${data.id}</p> <p>任务标题：${data.title}</p> `;
})
// 捕获请求异常
.catch(error=>{
    console.error('请求出错：', error);
    document.getElementById('result').innerHTML ='<p>请求失败，请重试</p>';
});

cookie token sign authorization

GET https://api.xxx.com/gold

import requests
url ="https://api.xxx.com/gold"
res = requests.get(url).json()
print(res)

User-Agent Referer Cookie

headers ={"User-Agent":"...","Referer":"...","Cookie":"..."}
requests.get(url, headers=headers)

sign=md5(timestamp+secret)

GET /chat HTTP/1.1
Host: server.example.com
Upgrade: websocket
Connection: Upgrade
Sec-WebSocket-Key: xxxxx
Sec-WebSocket-Version: 13

HTTP/1.1 101 Switching Protocols
Upgrade: websocket
Connection: Upgrade

WebSocket = HTTP 握手 + 独立通信协议

协议	默认端口
HTTP	80
HTTPS	443
WS	80
WSS	443

from playwright.sync_api import sync_playwright
with sync_playwright() as p:
    browser = p.chromium.launch(headless=False)
    page = browser.new_page()
    page.goto("目标网址")
    # 监听所有 WebSocket
    page.on("websocket",lambda ws:print("WS 连接:", ws.url))
    # 监听消息（核心！）
    def handle_message(msg):
        print("收到 WS 数据:", msg)
    # 这里就是你要的数据
    page.on("websocket",lambda ws: ws.on("framereceived", handle_message))
    input("按回车结束...")# 保持运行

import websocket

def on_message(ws, message):
    print("实时数据:", message)# 解析 JSON 即可

ws = websocket.WebSocketApp("wss://xxx.com/socket",# 从 Network 复制 ws 地址
    on_message=on_message,
    header={"Cookie":"你的 cookie"}# 带登录态
)
ws.run_forever()

前端 AJAX 详解与动态页面爬虫实战思路

1、前端三大核心

HTML（结构层）

CSS（表现层）

更多推荐文章

相关免费在线工具

JavaScript（行为层）

2、AJAX

AJAX 是什么

核心特点

和传统请求对比

简单代码示例（两种常用方式）

方式 1：原生 XMLHttpRequest（AJAX 基础实现）

方式 2：现代方案 fetch API（更简洁，推荐）

AJAX 的实际应用场景

AJAX 对爬虫的影响

如何判断是否使用了 AJAX

1、浏览器开发者工具（F12）

2、对比'原始源码' vs '真实页面'

AJAX 页面爬虫的解决方案

方法 1：直接调用 API（最优方案）

判断 API 是否可以直接爬

情况 1：无鉴权（最简单）

情况 2：需要 headers

情况 3：接口有加密

方法 2：模拟浏览器

3、WebSocket

如何判断网站用了 WebSocket？

如何爬取 WebSocket 数据

方法 1：Playwright / Puppeteer（最推荐，新手首选）

方法 2：纯 Python websocket-client（轻量，适合已知 WS 地址）

更多推荐文章

相关免费在线工具

前端 AJAX 详解与动态页面爬虫实战思路

1、前端三大核心

HTML（结构层）

CSS（表现层）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

JavaScript（行为层）

2、AJAX

AJAX 是什么

核心特点

和传统请求对比

简单代码示例（两种常用方式）

方式 1：原生 XMLHttpRequest（AJAX 基础实现）

方式 2：现代方案 fetch API（更简洁，推荐）

AJAX 的实际应用场景

AJAX 对爬虫的影响

如何判断是否使用了 AJAX

1、浏览器开发者工具（F12）

2、对比'原始源码' vs '真实页面'

AJAX 页面爬虫的解决方案

方法 1：直接调用 API（最优方案）

判断 API 是否可以直接爬

情况 1：无鉴权（最简单）

情况 2：需要 headers

情况 3：接口有加密

方法 2：模拟浏览器

3、WebSocket

如何判断网站用了 WebSocket？

如何爬取 WebSocket 数据

方法 1：Playwright / Puppeteer（最推荐，新手首选）

方法 2：纯 Python websocket-client（轻量，适合已知 WS 地址）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具