Python 数据分析实战：从数据导入到统计输出 | 极客日志

PythonAI算法

Python 数据分析实战：从数据导入到统计输出

Python 数据分析通过 pandas 库实现。涵盖数据生成与导入、维度检查、空值处理、格式转换、重复值删除等清洗步骤。支持数据合并、排序、分组标记及分列预处理。提供基于标签、位置及条件的数据提取方法。利用筛选功能配合逻辑运算进行条件查询与聚合统计。通过 groupby 和 pivot_table 实现分类汇总与透视表分析。包含描述统计、标准差、协方差及相关系数计算。最终支持将结果导出为 Excel 或 CSV 格式。

链路追踪发布于 2025/2/7更新于 2026/7/940 浏览

Excel 是数据分析中最常用的工具，本文通过 Python 与 Excel 的功能对比介绍如何使用 Python 通过函数式编程完成 Excel 中的数据处理及分析工作。从 pandas 官方文档中总结出最常用的函数，通过这些函数介绍如何通过 Python 完成数据生成和导入、数据清洗、预处理、数据分类、数据筛选、分类汇总、透视等最常见的操作。

01 生成数据表

第一部分是生成数据表，常见的生成方法有两种，第一种是导入外部数据，第二种是直接写入数据。Excel 中的文件菜单中提供了获取外部数据的功能，支持数据库和文本文件和页面的多种数据源导入。

Python 支持从多种类型的数据导入。在开始使用 Python 进行数据导入前需要先导入 pandas 库，为了方便起见，我们也同时导入 numpy 库。

import numpy as np
import pandas as pd

导入数据表

下面分别是从 excel 和 csv 格式文件导入数据并创建数据表的方法。代码是最简模式，里面有很多可选参数设置，例如列名称，索引列，数据格式等等。感兴趣的朋友可以参考 pandas 的官方文档。

df = pd.DataFrame(pd.read_csv('name.csv', header=1))
df = pd.DataFrame(pd.read_excel('name.xlsx'))

创建数据表

另一种方法是通过直接写入数据来生成数据表，Excel 中直接在单元格中输入数据就可以，Python 中通过下面的代码来实现。生成数据表的函数是 pandas 库中的 DataFrame 函数，数据表一共有 6 行数据，每行有 6 个字段。在数据中我们特意设置了一些 NA 值和有问题的字段，例如包含空格等。后面将在数据清洗步骤进行处理。后面我们将统一以 DataFrame 的简称 df 来命名数据表。

df = pd.DataFrame({"id": [1001, 1002, 1003, 1004, 1005, 1006],
                   "date": pd.date_range('20130102', periods=6),
                   "city": ['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
                   "age": [23, 44, 54, 32, 34, 32],
                   "category": [, , , , , ],
                   : [, np.nan, , , np.nan, ]},
                   columns=[, , , , , ])

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 查看数据表的维度
df.shape
# (6, 6)

# 数据表信息
df.info()

# 查看数据表各列格式
df.dtypes
# id                   int64
# date        datetime64[ns]
# city                object
# category            object
# age                  int64
# price              float64
# dtype: object

# 查看单列格式
df['id'].dtype
# dtype('int64')

# 检查数据空值
df.isnull()

# 检查特定列空值
df['price'].isnull()

# 查看 city 列中的唯一值
df['city'].unique()

# 查看数据表的值
df.values

# 查看列名称
df.columns

# 查看前 3 行数据
df.head(3)

# 查看最后 3 行
df.tail(3)

# 删除数据表中含有空值的行
df.dropna(how='any')

# 使用数字 0 填充数据表中空值
df.fillna(value=0)

# 使用 price 均值对 NA 进行填充
df['price'].fillna(df['price'].mean())

# 清除 city 字段中的字符空格
df['city'] = df['city'].map(str.strip)

# city 列大小写转换
df['city'] = df['city'].str.lower()

# 更改数据格式
df['price'] = df['price'].astype('int')

# 更改列名称
df.rename(columns={'category': 'category-size'})

df['city']

# 删除后出现的重复值
df['city'].drop_duplicates()

# 删除先出现的重复值
df['city'].drop_duplicates(keep='last')

# 数据替换
df['city'].replace('sh', 'shanghai')

# 创建 df1 数据表
df1 = pd.DataFrame({"id": [1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008],
                    "gender": ['male', 'female', 'male', 'female', 'male', 'female', 'male', 'female'],
                    "pay": ['Y', 'N', 'Y', 'Y', 'N', 'Y', 'N', 'Y'],
                    "m-point": [10, 12, 20, 40, 40, 40, 30, 20]})

# 数据表匹配合并，inner 模式
df_inner = pd.merge(df, df1, how='inner')

# 其他数据表匹配模式
df_left = pd.merge(df, df1, how='left')
df_right = pd.merge(df, df1, how='right')
df_outer = pd.merge(df, df1, how='outer')

# 设置索引列
df_inner.set_index('id')

# 按特定列的值排序
df_inner.sort_values(by=['age'])

# 按索引列排序
df_inner.sort_index()

# 如果 price 列的值>3000，group 列显示 high，否则显示 low
df_inner['group'] = np.where(df_inner['price'] > 3000, 'high', 'low')

# 对复合多个条件的数据进行分组标记
df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000), 'sign'] = 1

# 对 category 字段的值依次进行分列，并创建数据表，索引值为 df_inner 的索引列，列名称为 category 和 size
pd.DataFrame((x.split('-') for x in df_inner['category']), index=df_inner.index, columns=['category', 'size'])

# 将完成分列后的数据表与原 df_inner 数据表进行匹配
df_inner = pd.merge(df_inner, split_result, right_index=True, left_index=True)

# 按索引提取单行的数值
df_inner.loc[3]

# 按索引提取区域行数值
df_inner.loc[0:5]

# 重设索引
df_inner.reset_index()

# 设置日期为索引
df_inner = df_inner.set_index('date')

# 提取 4 日之前的所有数据
df_inner[:'2013-01-04']

# 使用 iloc 按位置区域提取数据
df_inner.iloc[:3, :2]

# 使用 iloc 按位置单独提取数据
df_inner.iloc[[0, 2, 5], [4, 5]]

# 使用 ix 按索引标签和位置混合提取数据
df_inner.ix[:'2013-01-03', :4]

# 判断 city 列的值是否为 beijing
df_inner['city'].isin(['beijing'])

# 先判断 city 列里是否包含 beijing 和 shanghai，然后将复合条件的数据提取出来。
df_inner.loc[df_inner['city'].isin(['beijing', 'shanghai'])]

category = df_inner['category']
# 提取前三个字符，并生成数据表
pd.DataFrame(category.str[:3])

# 使用'与'条件进行筛选
df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beijing'), ['id', 'city', 'age', 'category', 'gender']]

# 使用'或'条件筛选
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beijing'), ['id', 'city', 'age', 'category', 'gender']].sort_values(by=['age'])

# 对筛选后的数据按 price 字段进行求和
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beijing'), ['id', 'city', 'age', 'category', 'gender', 'price']].sort_values(by=['age']).price.sum()

# 使用'非'条件进行筛选
df_inner.loc[(df_inner['city'] != 'beijing'), ['id', 'city', 'age', 'category', 'gender']].sort_values(by=['id'])

# 对筛选后的数据按 city 列进行计数
df_inner.loc[(df_inner['city'] != 'beijing'), ['id', 'city', 'age', 'category', 'gender']].sort_values(by=['id']).city.count()

# 使用 query 函数进行筛选
df_inner.query('city == ["beijing", "shanghai"]')

# 对筛选后的结果按 price 进行求和
df_inner.query('city == ["beijing", "shanghai"]').price.sum()

# 对所有列进行计数汇总
df_inner.groupby('city').count()

# 对特定的 ID 列进行计数汇总
df_inner.groupby('city')['id'].count()

# 对两个字段进行汇总计数
df_inner.groupby(['city', 'size'])['id'].count()

# 对 city 字段进行汇总并计算 price 的合计和均值。
df_inner.groupby('city')['price'].agg([len, np.sum, np.mean])

# 数据透视表
pd.pivot_table(df_inner, index=["city"], values=["price"], columns=["size"], aggfunc=[len, np.sum], fill_value=0, margins=True)

# 简单的数据采样
df_inner.sample(n=3)

# 手动设置采样权重
weights = [0, 0, 0, 0, 0.5, 0.5]
df_inner.sample(n=2, weights=weights)

# 采样后不放回
df_inner.sample(n=6, replace=False)

# 采样后放回
df_inner.sample(n=6, replace=True)

# 数据表描述性统计
df_inner.describe().round(2).T

# 标准差
df_inner['price'].std()

# 两个字段间的协方差
df_inner['price'].cov(df_inner['m-point'])

# 相关性分析
df_inner['price'].corr(df_inner['m-point'])

# 数据表相关性分析
df_inner.corr()

# 输出到 excel 格式
df_inner.to_excel('data_analysis_output.xlsx', sheet_name='Sheet1')

# 输出到 CSV 格式
df_inner.to_csv('data_analysis_output.csv')

# 创建数据表
df = pd.DataFrame({"id": [1001, 1002, 1003, 1004, 1005, 1006],
                   "date": pd.date_range('20130102', periods=6),
                   "city": ['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
                   "age": [23, 44, 54, 32, 34, 32],
                   "category": ['100-A', '100-B', '110-A', '110-C', '210-A', '130-F'],
                   "price": [1200, np.nan, 2133, 5433, np.nan, 4432]},
                   columns=['id', 'date', 'city', 'category', 'age', 'price'])

# 创建自定义函数
def table_info(x):
    shape = x.shape
    types = x.dtypes
    colums = x.columns
    print("数据维度 (行，列):\n", shape)
    print("数据格式:\n", types)
    print("列名称:\n", colums)

# 调用自定义函数获取 df 数据表信息并输出结果
table_info(df)

Python 数据分析实战：从数据导入到统计输出

01 生成数据表

导入数据表

创建数据表

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

02 数据表检查

数据维度 (行列)

数据表信息

查看数据格式

查看空值

查看唯一值

查看数据表数值

查看列名称

查看前 10 行数据

查看后 10 行数据

03 数据表清洗

处理空值 (删除或填充)

清理空格

大小写转换

更改数据格式

更改列名称

删除重复值

数值修改及替换

04 数据预处理

数据表合并

设置索引列

排序 (按索引，按数值)

数据分组

数据分列

05 数据提取

按标签提取 (loc)

按位置提取 (iloc)

按标签和位置提取（ix）

按条件提取（区域和条件值）

06 数据筛选

按条件筛选（与，或，非）

07 数据汇总

分类汇总

数据透视

08 数据统计

数据采样

描述统计

09 数据输出

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具