Python JS 逆向与多线程结合实现淘宝数据爬取 | 极客日志

PythonNode.js大前端算法

Python JS 逆向与多线程结合实现淘宝数据爬取

介绍使用 Python 结合 JS 逆向技术与多线程方案进行淘宝数据爬取的实践。通过抓包分析加密参数，还原 JS 加密逻辑并利用 execjs 在 Python 中调用。采用 ThreadPoolExecutor 提升 I/O 密集型任务效率，同时包含 Cookie 维护、IP 代理及合规性建议，确保爬取稳定合法。

魔尊发布于 2026/3/22更新于 2026/5/2116K 浏览

一、核心技术原理与环境准备

1.1 核心技术栈

本次实践的核心技术围绕'破解反爬'与'提升效率'展开，技术栈如下：

Python：核心开发语言，轻量且生态丰富，拥有 requests（网络请求）、threading/concurrent.futures（多线程）、execjs（执行 JS 代码）等必备库；
JS 逆向：破解某宝请求中的加密参数（如 sign、_m_h5_tk 等），还原真实请求逻辑；
多线程：利用 Python 多线程处理网络 I/O 密集型任务，充分利用网络资源，提升爬取效率；
反爬规避：自定义请求头、请求频率控制、Cookie 维持等策略，降低被封风险。

1.2 环境搭建

本次实践基于 Python 3.8+，需安装以下第三方库，执行命令：

pip install requests execjs fake-useragent pyquery hashlib

execjs：用于在 Python 中执行逆向后的 JS 代码，需提前安装 Node.js（保证 JS 运行环境）；
fake-useragent：生成随机 User-Agent，规避请求头特征检测；
pyquery：轻量的 HTML 解析库，便捷提取页面数据；
requests：发送 HTTP/HTTPS 请求，核心网络请求库；
hashlib：Python 内置模块，用于 MD5 加密。

同时准备抓包工具（Charles 或 Fiddler）、浏览器开发者工具（F12），用于抓包分析请求参数与 JS 加密逻辑。

二、某宝请求分析与 JS 逆向核心步骤

某宝的商品列表、详情等接口均为异步 AJAX 请求，且请求参数中包含多个加密字段（如 _m_h5_tk、_m_h5_tk_enc、sign），直接构造请求会返回 403/500 错误，因此第一步需通过抓包分析加密逻辑，再完成 JS 逆向。

2.1 抓包分析目标接口

以某宝商品搜索接口为例，操作步骤如下：

打开某宝网页版，开启浏览器开发者工具（F12），切换至「Network」面板，筛选「XHR/Fetch」类型；
输入关键词搜索商品，在网络请求中找到核心接口（如 https://h5api.m.taobao.com/h5/mtop.taobao.search.core/1.0/）；
查看该接口的「Request Headers」（请求头）和「Request Payload」（请求体），发现核心加密参数：
- 请求头中的 _m_h5_tk、_m_h5_tk_enc：与用户登录态、时间戳相关的加密串；
- 请求体中的 sign：对请求参数、时间戳、固定密钥的混合加密结果；
- 公共参数 t：时间戳，appKey：固定应用标识。

2.2 定位 JS 加密代码

加密参数的生成逻辑藏在某宝的前端 JS 代码中，通过开发者工具定位核心 JS 文件：

在开发者工具「Network」面板，找到包含加密逻辑的 JS 文件（通常为体积较大、命名含 mtop/h5 的文件）；
切换至「Sources」面板，通过「搜索功能」（Ctrl+F）搜索加密参数关键词（如 _m_h5_tk、sign），定位到参数生成的核心函数；
分析函数逻辑，发现加密核心为 MD5 加密 + 参数拼接，例如的生成规则为：，其中为分割后的字段，为请求体的 JSON 字符串。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

sign

sign = md5(appKey + t + token + data)

token

_m_h5_tk

data

// 引入 MD5 加密模块（Node.js 环境，需提前安装：npm install md5）
const md5 = require('md5');

/**
 * 生成 sign 加密参数
 * @param {string} appKey - 固定 appKey
 * @param {string} t - 时间戳
 * @param {string} token - _m_h5_tk 分割后的 token
 * @param {string} data - 请求体 JSON 字符串
 * @returns {string} 加密后的 sign
 */
function generateSign(appKey, t, token, data) {
    const str = appKey + t + token + data;
    return md5(str);
}

/**
 * 生成_m_h5_tk（简化版，实际需从 Cookie 中提取并更新）
 * @param {string} token - 基础 token
 * @param {string} t - 时间戳
 * @returns {string} 拼接后的_m_h5_tk
 */
function generateMtk(token, t) {
    return token + '_' + t + '_' + Math.floor(Math.random() * 1000);
}

// 暴露方法，供 Python 调用
module.exports = { generateSign, generateMtk };

import execjs
import requests
import time
import json
import hashlib
from fake_useragent import UserAgent
from pyquery import PyQuery as pq

# 初始化 UserAgent，生成随机请求头
ua = UserAgent(verify_ssl=False)

# 加载 JS 加密文件
with open('taobao_encrypt.js', 'r', encoding='utf-8') as f:
    js_code = f.read()

ctx = execjs.compile(js_code, cwd=r'C:\Program Files\nodejs')
# cwd 为 Node.js 安装路径，execjs 需找到 node 可执行文件

# 某宝固定配置
APP_KEY = '12574478'  # 某宝公开 appKey，实际可从抓包获取
BASE_TOKEN = 'your_token'  # 从 Cookie 中提取的基础 token，抓包获取
BASE_URL = 'https://h5api.m.taobao.com/h5/mtop.taobao.search.core/1.0/'

class TaobaoEncrypt:
    """加密工具类，生成某宝请求所需加密参数"""
    
    @staticmethod
    def get_timestamp():
        """生成 13 位时间戳（某宝接口要求）"""
        return str(int(time.time() * 1000))

    @staticmethod
    def generate_params(data):
        """
        生成所有加密参数
        :param data: 请求体原始数据（字典）
        :return: 加密后的参数字典
        """
        t = TaobaoEncrypt.get_timestamp()
        # 生成_m_h5_tk
        m_tk = ctx.call('generateMtk', BASE_TOKEN, t)
        # 分割_m_h5_tk 获取 token（规则：_m_h5_tk = token + _ + t + _ + 随机数）
        token = m_tk.split('_')[0]
        # 转换 data 为 JSON 字符串（无空格，某宝要求）
        data_str = json.dumps(data, separators=(',', ':'))
        # 生成 sign
        sign = ctx.call('generateSign', APP_KEY, t, token, data_str)
        return {
            't': t,
            '_m_h5_tk': m_tk,
            '_m_h5_tk_enc': hashlib.md5(m_tk.encode()).hexdigest().upper(),  # 简单实现，实际需按某宝规则加密
            'sign': sign,
            'appKey': APP_KEY,
            'data': data_str
        }

    # 基础请求方法
    def single_crawl(self, keyword, page=1):
        """
        单线程爬取某宝商品搜索结果
        :param keyword: 搜索关键词
        :param page: 页码
        :return: 商品列表数据
        """
        # 构造原始请求体数据
        data = {
            'q': keyword,
            'pageNo': page,
            'pageSize': 20,
            'platform': 'h5'
        }
        # 生成加密参数
        encrypt_params = self.generate_params(data)
        # 构造请求头
        headers = {
            'User-Agent': ua.random,
            'Referer': 'https://s.m.taobao.com/',
            'Content-Type': 'application/x-www-form-urlencoded',
            'Cookie': f'_m_h5_tk={encrypt_params["_m_h5_tk"]};',  # 携带加密 Cookie
            'Host': 'h5api.m.taobao.com'
        }
        # 构造请求体
        payload = {
            'jsv': '2.6.1',
            'appKey': encrypt_params['appKey'],
            't': encrypt_params['t'],
            'sign': encrypt_params['sign'],
            'data': encrypt_params['data']
        }
        try:
            # 发送 POST 请求（某宝核心接口均为 POST）
            response = requests.post(BASE_URL, headers=headers, data=payload, timeout=10)
            if response.status_code == 200:
                result = response.json()
                if result.get('ret') == ['SUCCESS::接口调用成功']:
                    # 解析商品数据
                    goods_list = result.get('data', {}).get('items', [])
                    print(f'第{page}页爬取成功，共{len(goods_list)}件商品')
                    return goods_list
                else:
                    print(f'第{page}页爬取失败，返回信息：{result.get("ret")}')
                    return []
            else:
                print(f'请求失败，状态码：{response.status_code}')
                return []
        except Exception as e:
            print(f'请求异常：{str(e)}')
            return []

# 单线程测试
if __name__ == '__main__':
    start_time = time.time()
    crawler = TaobaoEncrypt()
    # 爬取关键词「Python 教程」前 3 页
    for page in range(1, 4):
        crawler.single_crawl('Python 教程', page)
    end_time = time.time()
    print(f'单线程爬取完成，总耗时：{end_time - start_time:.2f}秒')

from concurrent.futures import ThreadPoolExecutor, as_completed
import time

# 全局控制：线程数（根据反爬调整，建议 5-10）
THREAD_NUM = 8
# 全局控制：每页请求间隔（秒，避免请求过快被封）
REQUEST_INTERVAL = 0.5

def multi_thread_crawl(keyword, max_page):
    """
    多线程爬取某宝商品搜索结果
    :param keyword: 搜索关键词
    :param max_page: 最大爬取页码
    :return: 所有商品数据列表
    """
    all_goods = []
    # 创建线程池
    with ThreadPoolExecutor(max_workers=THREAD_NUM) as executor:
        # 提交任务：将每一页的爬取任务提交给线程池
        future_to_page = {executor.submit(crawler.single_crawl, keyword, page): page for page in range(1, max_page + 1)}
        # 遍历完成的任务，获取结果
        for future in as_completed(future_to_page):
            page = future_to_page[future]
            try:
                # 获取单页爬取结果
                goods = future.result()
                if goods:
                    all_goods.extend(goods)
                # 间隔请求，规避反爬
                time.sleep(REQUEST_INTERVAL)
            except Exception as e:
                print(f'第{page}页多线程爬取异常：{str(e)}')
    return all_goods

# 多线程测试
if __name__ == '__main__':
    # 单线程测试（注释掉单线程代码，开启多线程）
    # start_time = time.time()
    # for page in range(1, 4):
    #     crawler.single_crawl('Python 教程', page)
    # end_time = time.time()
    # print(f'单线程爬取完成，总耗时：{end_time - start_time:.2f}秒')
    
    # 多线程测试：爬取「Python 教程」前 10 页
    start_time = time.time()
    total_goods = multi_thread_crawl('Python 教程', 10)
    end_time = time.time()
    print(f'多线程爬取完成，总耗时：{end_time - start_time:.2f}秒')
    print(f'累计爬取商品：{len(total_goods)}件')

proxies = {
    'http': 'http://ip:port',
    'https': 'https://ip:port'
}
response = requests.post(BASE_URL, headers=headers, data=payload, proxies=proxies, timeout=10)

Python JS 逆向与多线程结合实现淘宝数据爬取

一、核心技术原理与环境准备

1.1 核心技术栈

1.2 环境搭建

二、某宝请求分析与 JS 逆向核心步骤

2.1 抓包分析目标接口

2.2 定位 JS 加密代码

更多推荐文章

相关免费在线工具

2.3 JS 代码提取与还原

2.4 Python 调用逆向后的 JS 代码

三、代码实现：JS 逆向落地与单线程爬取

3.1 逆向后的 JS 代码（核心加密逻辑）

3.2 Python 封装加密工具类

3.3 代码关键说明

四、多线程改造：提升 I/O 密集型爬取效率

4.1 多线程爬取代码实现

4.2 多线程关键优化点

4.3 单线程与多线程效率对比

五、高级反爬规避与爬取稳定性优化

5.2 IP 代理池接入

5.3 请求频率动态调整

5.4 数据持久化与断点续爬

六、法律与伦理规范：爬取的红线

七、总结与拓展

更多推荐文章

相关免费在线工具

Python JS 逆向与多线程结合实现淘宝数据爬取

一、核心技术原理与环境准备

1.1 核心技术栈

1.2 环境搭建

二、某宝请求分析与 JS 逆向核心步骤

2.1 抓包分析目标接口

2.2 定位 JS 加密代码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 JS 代码提取与还原

2.4 Python 调用逆向后的 JS 代码

三、代码实现：JS 逆向落地与单线程爬取

3.1 逆向后的 JS 代码（核心加密逻辑）

3.2 Python 封装加密工具类

3.3 代码关键说明

四、多线程改造：提升 I/O 密集型爬取效率

4.1 多线程爬取代码实现

4.2 多线程关键优化点

4.3 单线程与多线程效率对比

五、高级反爬规避与爬取稳定性优化

5.1 Cookie 持久化与动态更新

5.2 IP 代理池接入

5.3 请求频率动态调整

5.4 数据持久化与断点续爬

六、法律与伦理规范：爬取的红线

七、总结与拓展

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具