商品销售数据分析与可视化
数据来源
本文数据源自公开的销售明细表压缩包,解压后导入工作文件夹。
数据预处理
拿到数据后先进行数据清理。由于 IDE 中无法直接打开 xlsx 文件,建议先在 Excel 中预览以确保数据一致性。

经过查看,这是一个(40514,12)的数据集,即 40514 行,12 列。接下来我们写一个简单的 python 脚本进行数据清理:
import pandas as pd
df = pd.read_excel('销售明细表.xlsx')
print(df.info())
print('\n')
errorcb = df[df.loc[:, '成本额'] < 0]
errorsl = df[df.loc[:, '销售额'] < 0]
errorxse = df[df.loc[:, '销售成本'] < 0]
print(f'成本额异常值有{errorcb.shape[0]}条,分别在第{errorcb.index.tolist()}行')
print(f'销售额异常值有{errorsl.shape[0]}条,分别在第{errorsl.index.tolist()}行')
print(f'销售成本异常值有{errorxse.shape[0]}条,分别在第{errorxse.index.tolist()}行')
打印 info 函数会展现出数据集的行列数、列名、数据类型以及空值情况等基本信息。另外由于数据集里有成本、销售额和数量这些数据,我们查看一下是否有异常值,即小于 0 的数。

一切正常,可以进行下一步操作了。我们发现在数据集中只有销售额和成本额,但没有毛利额,可以进行增加毛利额列。这个数据集只有四万多行,正常情况直接用 excel 进行公式计算就可以了,但是在这里我们选择用 python 实现。
pandas pd
df = pd.read_excel()
df.loc[:, ] =
df.loc[:, ] = df.loc[:, ] - df.loc[:, ]
df.to_excel(, index=)









