唯品会泳衣商品数据采集与可视化分析 | 极客日志

Python算法

唯品会泳衣商品数据采集与可视化分析

演示了使用 Python 爬取唯品会泳衣商品数据的流程。通过分析网络请求接口，构建请求参数获取商品 ID 列表，进而批量抓取商品详情并存储为 CSV。随后利用 Pandas 进行数据处理，结合 PyEcharts 库绘制品牌分布饼图、售价平均柱状图及价格区间分布图，实现商品数据的直观可视化分析。

remedios发布于 2025/2/7更新于 2026/7/1538 浏览

引言

唯品会是中国领先的在线特卖电商平台，提供品牌折扣商品。本文以爬取唯品会泳衣商品数据为例，演示从接口分析、数据抓取到可视化展示的全流程。

数据来源分析

1. 明确需求

采集网站: https://category.vip.com/
目标数据: 商品信息（标题、价格、品牌等）

2. 抓包分析

使用浏览器开发者工具（F12 / Network）进行分析：

刷新网页触发数据加载。
搜索关键字定位数据包。
发现数据分批次返回（如前 50 条、中 50 条、后 20 条），需通过分页或 ID 列表批量获取。
关键参数包括 keyword（关键词）、pageOffset（页码）、batchSize（批次大小）等。

代码实现步骤

环境准备

确保安装必要的库：

pip install requests pandas pyecharts

发送请求与解析

定义请求头模拟浏览器行为，设置 Referer 防止防盗链。通过 API 获取商品 ID 列表，再分批请求详细信息。

import requests
import csv
import pandas as pd
from pyecharts import options as opts
from pyecharts.charts import Bar, Pie

# 请求头配置
headers = {
    'Referer': 'https://category.vip.com/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}

# 第一步：获取商品 ID 列表
url = 'https://mapi.vip.com/vips-mobile/rest/shopping/pc/search/product/rank'
data = {
    'app_name': 'shop_pc',
    'app_version': '4.0',
    'warehouse': 'VIP_HZ',
    'fdc_area_id': '104103101',
    'client': ,
    : ,
    : ,
    : ,
    : ,
    : ,
    : ,
    : ,
    : ,
    : ,
}

response = requests.get(url=url, params=data, headers=headers)
products = [i[]  i  response.json()[][]]


product_id_list = [
    .join(products[:]),
    .join(products[:]),
    .join(products[:])
]


 (, mode=, encoding=, newline=)  f:
    fieldnames = [, , , , , , ]
    writer = csv.DictWriter(f, fieldnames=fieldnames)
    writer.writeheader()
    
     product_ids  product_id_list:
        link = 
        params = {
            : ,
            : ,
            : ,
            : ,
            : ,
            : ,
            : ,
            : ,
            : product_ids,
            : ,
            : ,
            : ,
        }
        json_data = requests.get(url=link, params=params, headers=headers).json()
        
         item  json_data[][]:
            
            attrs = .join([j[]  j  item.get(, [])])
            
            row = {
                : item[],
                : item[],
                : item[][],
                : item[][],
                : item[][],
                : attrs,
                : ,
            }
            writer.writerow(row)
            (row)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

df = pd.read_csv('商品.csv')
print(df.head())

shop_num = df['品牌'].value_counts().to_list()
shop_type = df['品牌'].value_counts().index.to_list()

c = (
    Pie()
    .add("", [list(z) for z in zip(shop_type, shop_num)])
    .set_global_opts(
        title_opts=opts.TitleOpts(title="商品品牌分布占比"),
        legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical")
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
)
c.render_notebook()

avg_price = df.groupby('品牌')['售价'].mean()
ShopType = avg_price.index.tolist()
ShopNum = [int(a) for a in avg_price.values.tolist()]

c = (
    Bar()
    .add_xaxis(ShopType)
    .add_yaxis("", ShopNum)
    .set_global_opts(
        title_opts=opts.TitleOpts(title="各大品牌商品平均售价"),
        visualmap_opts=opts.VisualMapOpts(
            dimension=1, pos_right="5%", max_=30, is_inverse=True
        ),
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=45))
    )
    .set_series_opts(
        label_opts=opts.LabelOpts(is_show=False),
        markline_opts=opts.MarkLineOpts(
            data=[
                opts.MarkLineItem(type_="min", name="最小值"),
                opts.MarkLineItem(type_="max", name="最大值"),
                opts.MarkLineItem(type_="average", name="平均值"),
            ]
        )
    )
)
c.render_notebook()

# 假设根据实际数据划分区间
bins = [0, 100, 200, 500, 1000, float('inf')]
bins_labels = ['0-100', '100-200', '200-500', '500-1000', '1000+']
df['价格区间'] = pd.cut(df['售价'], bins=bins, labels=bins_labels)
interval_counts = df['价格区间'].value_counts().sort_index()

pie_data = list(zip(interval_counts.index.tolist(), interval_counts.values.tolist()))
pie1 = (
    Pie(init_opts=opts.InitOpts(theme='dark', width='1000px', height='600px'))
    .add('', pie_data, radius=['35%', '60%'])
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%"))
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title="唯品会泳衣商品售价价格区间",
            pos_left='center',
            pos_top='center',
            title_textstyle_opts=opts.TextStyleOpts(color='#F0F8FF', font_size=20, font_weight='bold')
        )
    )
    .set_colors(['#EF9050', '#3B7BA9', '#6FB27C', '#FFAF34', '#D8BFD8'])
)
pie1.render_notebook()

唯品会泳衣商品数据采集与可视化分析

引言

数据来源分析

1. 明确需求

2. 抓包分析

代码实现步骤

环境准备

发送请求与解析

更多推荐文章

相关免费在线工具

数据可视化

读取数据

商品品牌分布占比

各大品牌商品平均售价

售价价格区间分布

总结

更多推荐文章

相关免费在线工具

唯品会泳衣商品数据采集与可视化分析

引言

数据来源分析

1. 明确需求

2. 抓包分析

代码实现步骤

环境准备

发送请求与解析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

数据可视化

读取数据

商品品牌分布占比

各大品牌商品平均售价

售价价格区间分布

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具