Python JS 逆向与多线程结合实践

环境搭建

本次实践基于 Python 3.8+，需安装以下第三方库，执行命令：

pip install requests execjs fake-useragent pyquery

execjs：用于在 Python 中执行逆向后的 JS 代码，需提前安装 Node.js（保证 JS 运行环境）；
fake-useragent：生成随机 User-Agent，规避请求头特征检测；
pyquery：轻量的 HTML 解析库，便捷提取页面数据；
requests：发送 HTTP/HTTPS 请求，核心网络请求库。

同时准备抓包工具（Charles 或 Fiddler）、浏览器 F12），用于抓包分析请求参数与 JS 加密逻辑。

某宝请求分析与 JS 逆向核心步骤

某宝的商品列表、详情等接口均为异步 AJAX 请求，且请求参数中包含多个加密字段（如 _m_h5_tk、_m_h5_tk_enc、sign），直接构造请求会返回 403/500 错误，因此第一步需通过抓包分析加密逻辑，再完成 JS 逆向。

2.1 抓包分析目标接口

以某宝商品搜索接口为例，操作步骤如下：

打开某宝网页版，开启浏览器开发者工具（F12），切换至 Network 面板，筛选 XHR/Fetch 类型；
输入关键词搜索商品，在网络请求中找到核心接口（如 https://h5api.m.taobao.com/h5/mtop.taobao.search.core/1.0/）；
查看该接口的 Request Headers（请求头）和 Request Payload（请求体），发现核心加密参数：
- 请求头中的 _m_h5_tk、_m_h5_tk_enc：与用户登录态、时间戳相关的加密串；
- 请求体中的 sign：对请求参数、时间戳、固定密钥的混合加密结果；
- 公共参数 t：时间戳，appKey：固定应用标识。

2.2 定位 JS 加密代码

加密参数的生成逻辑藏在某宝的前端 JS 代码中，通过开发者工具定位核心 JS 文件：

在开发者工具 Network 面板，找到包含加密逻辑的 JS 文件（通常为体积较大、命名含 mtop/h5 的文件）；
切换至 Sources 面板，通过搜索功能（Ctrl+F）搜索加密参数关键词（如 _m_h5_tk、sign），定位到参数生成的核心函数；
分析函数逻辑，发现加密核心为 MD5 加密 + 参数拼接，例如 sign 的生成规则为：sign = md5(appKey + t + token + data)，其中 token 为 _m_h5_tk 分割后的字段，data 为请求体的 JSON 字符串。

2.3 JS 代码提取与还原

由于某宝的前端 JS 会做混淆压缩（变量名简写、代码嵌套），需对核心加密函数进行提取和还原，步骤如下：

复制定位到的加密函数及依赖的工具函数（如 MD5 加密、参数拼接函数）；
去除无关代码，修复函数依赖（如补全缺失的变量、方法）；
在 Node.js 环境中测试还原后的 JS 代码，确保能正常生成加密参数。

2.4 Python 调用逆向后的 JS 代码

通过 execjs 库让 Python 执行逆向后的 JS 代码，实现加密参数的动态生成，这是连接 JS 逆向与 Python 爬取的关键环节。

代码实现：JS 逆向落地与单线程爬取

本部分先实现 JS 逆向的 Python 封装，生成合法的加密请求参数，再完成单线程的基础爬取，为后续多线程改造打下基础。

import execjs import requests import time import json import hashlib from fake_useragent import UserAgent from pyquery import PyQuery as pq # 初始化 UserAgent，生成随机请求头 ua = UserAgent(verify_ssl=False) # 加载 JS 加密文件 with open('taobao_encrypt.js', 'r', encoding='utf-8') as f: js_code = f.read() ctx = execjs.compile(js_code, cwd=r'C:\Program Files\nodejs') # cwd 为 Node.js 安装路径，execjs 需找到 node 可执行文件 # 某宝固定配置 APP_KEY = '12574478' # 某宝公开 appKey，实际可从抓包获取 BASE_TOKEN = 'your_token' # 从 Cookie 中提取的基础 token，抓包获取 BASE_URL = 'https://h5api.m.taobao.com/h5/mtop.taobao.search.core/1.0/' class TaobaoEncrypt: """加密工具类，生成某宝请求所需加密参数""" @staticmethod def get_timestamp(): """生成 13 位时间戳（某宝接口要求）""" return str(int(time.time() * 1000)) @staticmethod def generate_params(data): """ 生成所有加密参数 :param data: 请求体原始数据（字典） :return: 加密后的参数字典 """ t = TaobaoEncrypt.get_timestamp() # 生成_m_h5_tk m_tk = ctx.call('generateMtk', BASE_TOKEN, t) # 分割_m_h5_tk 获取 token（规则：_m_h5_tk = token + _ + t + _ + 随机数） token = m_tk.split('_')[0] # 转换 data 为 JSON 字符串（无空格，某宝要求） data_str = json.dumps(data, separators=(',', ':')) # 生成 sign sign = ctx.call('generateSign', APP_KEY, t, token, data_str) return { 't': t, '_m_h5_tk': m_tk, '_m_h5_tk_enc': hashlib.md5(m_tk.encode()).hexdigest().upper(), # 简单实现，实际需按某宝规则加密 'sign': sign, 'appKey': APP_KEY, 'data': data_str } # 基础请求方法 def single_crawl(self, keyword, page=1): """ 单线程爬取某宝商品搜索结果 :param keyword: 搜索关键词 :param page: 页码 :return: 商品列表数据 """ # 构造原始请求体数据 data = { 'q': keyword, 'pageNo': page, 'pageSize': 20, 'platform': 'h5' } # 生成加密参数 encrypt_params = self.generate_params(data) # 构造请求头 headers = { 'User-Agent': ua.random, 'Referer': 'https://s.m.taobao.com/', 'Content-Type': 'application/x-www-form-urlencoded', 'Cookie': f'_m_h5_tk={encrypt_params["_m_h5_tk"]};', # 携带加密 Cookie 'Host': 'h5api.m.taobao.com' } # 构造请求体 payload = { 'jsv': '2.6.1', 'appKey': encrypt_params['appKey'], 't': encrypt_params['t'], 'sign': encrypt_params['sign'], 'data': encrypt_params['data'] } try: # 发送 POST 请求（某宝核心接口均为 POST） response = requests.post(BASE_URL, headers=headers, data=payload, timeout=10) if response.status_code == 200: result = response.json() if result.get('ret') == ['SUCCESS::接口调用成功']: # 解析商品数据 goods_list = result.get('data', {}).get('items', []) print(f'第{page}页爬取成功，共{len(goods_list)}件商品') return goods_list else: print(f'第{page}页爬取失败，返回信息：{result.get("ret")}') return [] else: print(f'请求失败，状态码：{response.status_code}') return [] except Exception as e: print(f'请求异常：{str(e)}') return [] # 单线程测试 if __name__ == '__main__': start_time = time.time() # 爬取关键词「Python 教程」前 3 页 for page in range(1, 4): crawler = TaobaoEncrypt() crawler.single_crawl('Python 教程', page) end_time = time.time() print(f'单线程爬取完成，总耗时：{end_time - start_time:.2f}秒')

from concurrent.futures import ThreadPoolExecutor, as_completed import time # 全局控制：线程数（根据反爬调整，建议 5-10） THREAD_NUM = 8 # 全局控制：每页请求间隔（秒，避免请求过快被封） REQUEST_INTERVAL = 0.5 def multi_thread_crawl(keyword, max_page): """ 多线程爬取某宝商品搜索结果 :param keyword: 搜索关键词 :param max_page: 最大爬取页码 :return: 所有商品数据列表 """ all_goods = [] # 创建线程池 with ThreadPoolExecutor(max_workers=THREAD_NUM) as executor: # 提交任务：将每一页的爬取任务提交给线程池 future_to_page = {executor.submit(crawler_instance.single_crawl, keyword, page): page for page in range(1, max_page + 1)} # 遍历完成的任务，获取结果 for future in as_completed(future_to_page): page = future_to_page[future] try: # 获取单页爬取结果 goods = future.result() if goods: all_goods.extend(goods) # 间隔请求，规避反爬 time.sleep(REQUEST_INTERVAL) except Exception as e: print(f'第{page}页多线程爬取异常：{str(e)}') return all_goods # 多线程测试 if __name__ == '__main__': # 单线程测试（注释掉单线程代码，开启多线程） # start_time = time.time() # for page in range(1, 4): # crawler = TaobaoEncrypt() # crawler.single_crawl('Python 教程', page) # end_time = time.time() # print(f'单线程爬取完成，总耗时：{end_time - start_time:.2f}秒') # 多线程测试：爬取「Python 教程」前 10 页 start_time = time.time() crawler = TaobaoEncrypt() total_goods = multi_thread_crawl('Python 教程', 10) end_time = time.time() print(f'多线程爬取完成，总耗时：{end_time - start_time:.2f}秒') print(f'累计爬取商品：{len(total_goods)}件')

Python JS 逆向与多线程结合实践

环境搭建

某宝请求分析与 JS 逆向核心步骤

2.1 抓包分析目标接口

2.2 定位 JS 加密代码

2.3 JS 代码提取与还原

2.4 Python 调用逆向后的 JS 代码

代码实现：JS 逆向落地与单线程爬取

更多推荐文章

相关免费在线工具

3.1 逆向后的 JS 代码（核心加密逻辑）

3.2 Python 封装加密工具类

3.3 代码关键说明

多线程改造：提升 I/O 密集型爬取效率

4.1 多线程爬取代码实现

4.2 多线程关键优化点

4.3 单线程与多线程效率对比

高级反爬规避与爬取稳定性优化

更多推荐文章

相关免费在线工具

Python JS 逆向与多线程结合实践

环境搭建

某宝请求分析与 JS 逆向核心步骤

2.1 抓包分析目标接口

2.2 定位 JS 加密代码

2.3 JS 代码提取与还原

2.4 Python 调用逆向后的 JS 代码

代码实现：JS 逆向落地与单线程爬取

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.1 逆向后的 JS 代码（核心加密逻辑）

3.2 Python 封装加密工具类

3.3 代码关键说明

多线程改造：提升 I/O 密集型爬取效率

4.1 多线程爬取代码实现

4.2 多线程关键优化点

4.3 单线程与多线程效率对比

高级反爬规避与爬取稳定性优化

5.1 Cookie 持久化与动态更新

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具