一、引言
利用 Python 及 pandas 库对商品销售明细表进行分析,并实现从表格到图表的可视化,展示工具在商业分析中的便捷性与灵活性。
二、数据预处理
拿到数据后先进行基础清理。虽然 Excel 能直接打开 xlsx 文件,但为了后续自动化处理,我们直接在 Python 中加载数据集。
这是一个包含 40514 行、12 列的数据集。我们先查看基本信息,包括行列数、数据类型及空值情况:
import pandas as pd
df = pd.read_excel('销售明细表.xlsx')
print(df.info())
由于数据集中涉及成本、销售额和数量等数值字段,我们需要检查是否存在异常值(如小于 0 的情况):
errorcb = df[df.loc[:, '成本额'] < 0]
errorsl = df[df.loc[:, '销售额'] < 0]
errorxse = df[df.loc[:, '销售成本'] < 0]
print(f'成本额异常值有{errorcb.shape[0]}条,分别在第{errorcb.index.tolist()}行')
print(f'销售额异常值有{errorsl.shape[0]}条,分别在第{errorsl.index.tolist()}行')
print(f'销售成本异常值有{errorxse.shape[0]}条,分别在第{errorxse.index.tolist()}行')
检查结果显示一切正常,可以进行下一步。注意到数据集中只有销售额和成本额,缺少毛利额,我们可以直接增加这一列:
df.loc[:, '毛利额'] = df.loc[:, '销售额'] - df.loc[:, '成本额']
df.to_excel('销售明细表_清洗后.xlsx', index=False)
添加完成后,即可正式开始分析。
三、数据分析
3.1 热销商品分析
首先对商品的销售情况进行宏观分析。利用 value_counts 函数可以快速统计各类商品的销量分布:
print(f'各类商品销售情况如下:\n{df.loc[:, "商品类别"].value_counts()}')


