Python 爬虫实战：抓取淘宝商品数据与基础分析 | 极客日志

Python算法

Python 爬虫实战：抓取淘宝商品数据与基础分析

使用 Python 进行淘宝商品数据爬取与分析的完整流程。通过调用第三方接口获取商品列表，解析 JSON 数据，进而统计不同价格区间的销量分布、商家地域分布及热门店铺信息。内容涵盖请求构建、响应处理及基础数据分析逻辑，旨在帮助开发者掌握电商数据采集与清洗的基本方法。

云间运维发布于 2025/2/6更新于 2026/7/2144 浏览

Python 爬虫实战：抓取淘宝商品数据与基础分析

前言

在电商数据分析领域，获取商品销量、价格分布及商家信息是市场调研的基础。本文以"小鱼零食"为例，演示如何使用 Python 调用接口获取淘宝搜索结果数据，并对数据进行清洗与分析，包括价格区间统计、商家地域分布、用户评论分析及热门店铺筛选。

一、项目需求分析

本次任务主要包含以下四个核心目标：

销量与金额统计：获取前 10 页搜索结果中所有商品的销量和金额，并按指定价格区间（如 10-30 元）统计数量。
商家地域分布：分析这 10 页搜索结果中商家的全国分布情况。
用户评论分析：提取商品下的用户评论内容，找出高频关键词。
热门店铺筛选：从搜索结果中找出销量最多的 10 家店铺名称及其链接。

二、数据采集方案

由于直接爬取淘宝官网存在反爬机制复杂、协议加密等问题，实际开发中常使用第三方开放平台提供的 API 接口进行数据获取。本示例基于通用的搜索接口结构进行演示。

2.1 请求参数说明

接口通常支持以下关键参数：

q: 搜索关键词（如'小鱼零食'）
start_price / end_price: 价格区间过滤
page: 当前页码
page_size: 每页返回数量
key / secret: 认证凭证

2.2 代码实现

使用 Python 的 requests 库发起 HTTP 请求。注意处理异常并设置合理的 User-Agent 以避免被拦截。

import requests
import json
from typing import List, Dict

def fetch_taobao_items(keyword: str, page: int = 1, api_key: str = "YOUR_KEY", api_secret: str = "YOUR_SECRET") -> Dict:
    url = "https://api.example.com/taobao/item_search"
    params = {
        "key": api_key,
        "secret": api_secret,
        "q": keyword,
        "start_price": 0,
        : ,
        : page,
        : ,
        : 
    }
    headers = {
        : ,
        : ,
        : 
    }
    
    :
        response = requests.get(url, params=params, headers=headers, timeout=)
        response.raise_for_status()
         response.json()
     Exception  e:
        ()
         {}

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

{
  "items": {
    "page": "1",
    "total_results": 326348000,
    "item": [
      {
        "title": "【小鱼】上脚超舒适的经典款平底鞋 SF 女鞋",
        "pic_url": "https://img.alicdn.com/imgextra/i3/O1CN01l3hGlF24e7WhMs6gx_!!2960437415.jpg",
        "promotion_price": "288.00",
        "price": "888.00",
        "sales": 10,
        "num_iid": "648682556542",
        "seller_nick": null,
        "detail_url": "https://item.taobao.com/item.htm?id=648682556542"
      },
      {
        "title": "四洲 粟一烧香脆粟米条 85g*3 桶",
        "promotion_price": "27.60",
        "price": "27.60",
        "sales": 12,
        "seller_nick": "常乐百货",
        "detail_url": "https://item.taobao.com/item.htm?id=600485873570"
      }
    ]
  }
}

import pandas as pd

def analyze_price_distribution(data_list: List[Dict]) -> pd.DataFrame:
    df = pd.DataFrame(data_list)
    # 确保价格为数值类型
    df['price'] = pd.to_numeric(df['price'], errors='coerce')
    
    # 定义价格区间
    bins = [0, 10, 30, 50, 100, float('inf')]
    labels = ['0-10', '10-30', '30-50', '50-100', '100+']
    df['price_range'] = pd.cut(df['price'], bins=bins, labels=labels)
    
    # 统计各区间商品数量
    distribution = df.groupby('price_range').size().reset_index(name='count')
    return distribution

def get_top_sellers(data_list: List[Dict], top_n: int = 10) -> pd.DataFrame:
    df = pd.DataFrame(data_list)
    # 填充缺失的店铺名
    df['seller_nick'] = df['seller_nick'].fillna('未知店铺')
    
    # 按店铺聚合销量
    seller_stats = df.groupby('seller_nick')['sales'].sum().reset_index()
    seller_stats.columns = ['shop_name', 'total_sales']
    
    # 排序并取前 N 名
    top_sellers = seller_stats.sort_values(by='total_sales', ascending=False).head(top_n)
    return top_sellers

import matplotlib.pyplot as plt

def plot_price_chart(distribution_df):
    plt.figure(figsize=(10, 6))
    plt.bar(distribution_df['price_range'], distribution_df['count'])
    plt.title('Price Distribution of Snacks')
    plt.xlabel('Price Range')
    plt.ylabel('Count')
    plt.show()

Python 爬虫实战：抓取淘宝商品数据与基础分析

Python 爬虫实战：抓取淘宝商品数据与基础分析

前言

一、项目需求分析

二、数据采集方案

2.1 请求参数说明

2.2 代码实现

更多推荐文章

相关免费在线工具

2.3 响应数据结构

三、数据处理与分析

3.1 价格区间统计

3.2 商家地域与店铺分析

3.3 评论情感分析（概念性）

四、结果可视化

五、总结

更多推荐文章

相关免费在线工具

Python 爬虫实战：抓取淘宝商品数据与基础分析

Python 爬虫实战：抓取淘宝商品数据与基础分析

前言

一、项目需求分析

二、数据采集方案

2.1 请求参数说明

2.2 代码实现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 响应数据结构

三、数据处理与分析

3.1 价格区间统计

3.2 商家地域与店铺分析

3.3 评论情感分析（概念性）

四、结果可视化

五、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具