一、爬取前准备
1.1 环境配置
- 开发语言:Python 3.8+
- 核心库:
pip install requests
pip install pymongo
pip install fake-useragent
pip install lxml
- 工具:
- 浏览器开发者工具(Chrome/Firefox):抓包分析接口
- MongoDB:存储评论数据(也可改用 MySQL)
- Postman:接口调试(可选)
1.2 爬取合规说明
- 仅用于学习研究,不得用于商业用途
- 控制爬取频率,避免给京东服务器造成压力
- 爬取数据量不宜过大,遵守网站 robots.txt 协议
二、京东评论接口分析
京东商品评论采用异步加载(AJAX),需通过抓包获取真实请求接口,步骤如下:
2.1 抓包步骤
- 打开京东商品详情页(例:https://item.jd.com/100012345678.html)
- 滚动到评论区,刷新页面,打开浏览器开发者工具(F12)→ 切换到「Network」→ 筛选「XHR」
- 找到名称含「comment」的请求(例:https://club.jd.com/comment/productPageComments.action)
- 点击该请求,查看「Headers」(请求头)和「Response」(响应数据)
2.2 核心接口参数解析
请求 URL 格式:
https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100012345678&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&rid=0&fold=1
关键参数说明:
| 参数名 | 含义 | 取值说明 |
|---|---|---|
| productId | 商品 ID | 从商品详情页 URL 提取 |
| score | 评论评分筛选 | 0 = 全部,1 = 差评,2 = 中评,3 = 好评,5 = 追评 |
| sortType | 排序方式 | 5 = 按时间排序,6 = 按有用度排序 |
| page | 页码 | 从 0 开始递增(0 = 第 1 页) |
| pageSize | 每页评论数 | 最大 10(京东限制) |

