系统简介
这是一个基于 Python 的淘宝商品数据爬取与价格分析可视化系统,集成了数据爬取、数据存储、数据展示和可视化分析等功能。系统采用图形化用户界面,提供直观的操作体验,支持爬取和分析各类淘宝商品数据。
主要功能
🕷️ 数据爬取功能
- 支持淘宝全品类商品数据爬取(电子产品、服饰、日用品、食品等)
- 可自定义搜索关键词和爬取页数
- 实时显示爬取进度和日志
- 自动将数据保存到 MySQL 数据库
📊 数据展示功能
- 以表格形式展示爬取的商品数据
- 支持按关键词筛选数据
- 支持数据导出为 CSV 格式
📈 可视化分析功能
- 价格分布分析: 显示商品价格分布直方图
- 销量排行榜: 展示销量前 N 的商品和店铺
- 地区分布图: 分析商品发货地区分布
- 价格区间分析: 统计不同价格区间的商品数量
- 价格销量关系: 分析价格与销量的相关性
- 词频分析: 生成商品名称和店铺名称的高频词图表
- 价格区间饼图: 以饼图形式展示各价格段商品占比,小比例区域特殊标注
- 店铺销量饼图: 可视化展示各店铺销量占比及分布情况
⚙️ 系统设置
- 数据库连接测试和管理
- 系统信息显示
- 操作日志记录
技术栈
核心技术
- Python - 主要开发语言
- Tkinter - 图形用户界面框架
- MySQL - 数据库存储
- Requests - HTTP 请求处理
- Selenium - 浏览器自动化
- BeautifulSoup - HTML 解析
数据处理与分析
- Pandas - 数据处理和分析
- NumPy - 数值计算
- Matplotlib - 数据可视化
- Seaborn - 统计图表
- Jieba - 中文分词
- WordCloud - 词云生成
系统架构
crawling/
├── config.py # 系统配置文件
├── database.py # 数据库操作模块
├── crawler_module.py # 爬虫模块
├── visualization.py # 数据可视化模块
├── data_analysis.py # 数据分析处理模块
├── main_gui.py # 主界面程序
├── login_gui.py
├── user_auth.py
├── main.py
├── run.py
├── requirements.txt
├── README.md
└── SimHei.ttf



