Python 数据分析实战：基于 Pandas 的数据处理全流程指南 | 极客日志

PythonAI算法

Python 数据分析实战：基于 Pandas 的数据处理全流程指南

综述由AI生成使用 Python 和 Pandas 库进行数据分析的完整流程。涵盖数据生成与导入、数据检查、清洗（空值处理、格式转换）、预处理（合并、排序、分组）、提取（loc/iloc）、筛选（条件查询）、汇总（GroupBy/Pivot）、统计描述及结果输出。通过对比 Excel 功能，展示了 Python 在大数据处理、自动化脚本编写及复杂分析任务中的优势，适合从 Excel 用户转型或希望提升数据处理效率的技术人员参考。

PgDevote发布于 2025/2/6更新于 2026/6/216 浏览

前言

在数据分析领域，常遇到两类人群：一类是掌握爬虫技术但不知道如何进一步进行深度数据处理的开发者；另一类是习惯使用 Excel 进行日常分析，但对 Python 数据分析能力有所欠缺的职场人士。如果符合您的情况，本文提供的系统长文将非常适合作为参考，建议收藏。

Excel 虽然是数据分析中最常用的工具之一，但在处理百万级数据或复杂逻辑时显得力不从心。本文通过对比 Python 与 Excel 的功能差异，详细介绍如何使用 Python 结合函数式编程完成 Excel 中的数据导入、清洗、预处理、分类汇总及透视等核心操作。内容基于 pandas 官方文档总结的最常用函数，旨在帮助读者建立从数据生成到结果输出的完整工作流。

文章内容共分为 9 个部分，涵盖数据表生成、检查、清洗、预处理、提取、筛选、汇总、统计及输出。

1. 生成数据表

第一部分主要介绍数据表的生成方法。常见的生成方式有两种：一是导入外部数据源，二是直接在代码中写入数据。

导入数据表

Excel 的文件菜单中提供了获取外部数据的功能，支持数据库、文本文件和网页等多种数据源。Python 同样支持从多种类型的数据导入。在开始使用 Python 进行数据导入前，需要先导入 pandas 库。为了方便起见，通常也会同时导入 numpy 库。

import numpy as np
import pandas as pd

下面分别展示从 excel 和 csv 格式文件导入数据并创建数据表的方法。代码采用最简模式，实际应用中包含许多可选参数设置，例如列名称、索引列、数据格式等。感兴趣的朋友可以参考 pandas 的官方文档。

df = pd.DataFrame(pd.read_csv('name.csv', header=1))
df = pd.DataFrame(pd.read_excel('name.xlsx'))

创建数据表

另一种方法是直接通过代码写入数据来生成数据表。Excel 中直接在单元格中输入数据即可，而在 Python 中则通过 DataFrame 函数来实现。

生成数据表的函数是 pandas 库中的 DataFrame 函数。示例数据表包含 6 行数据，每行有 6 个字段。在数据中特意设置了一些 NA 值和有问题的字段（如包含空格），以便后续在数据清洗步骤中进行处理。我们将统一以 DataFrame 的简称 df 来命名数据表。

df = pd.DataFrame({"id": [1001, 1002, 1003, 1004, 1005, 1006],
                   "date": pd.date_range('20130102', periods=6),
                   "city": ['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
                   "age": [23, , , , , ],
                   : [, , , , , ],
                   : [, np.nan, , , np.nan, ]},
                   columns=[, , , , , ])

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 查看数据表的维度
df.shape
# (6, 6)

# 数据表信息
df.info()

# 查看数据表各列格式
df.dtypes
# id                  int64
# date        datetime64[ns]
# city                object
# category            object
# age                  int64
# price              float64
# dtype: object

# 查看单列格式
df['city'].dtype
# dtype('object')

# 检查数据空值
df.isnull()

# 检查特定列空值
df['price'].isnull()

# 查看 city 列中的唯一值
df['city'].unique()
# array(['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '], dtype=object)

# 查看数据表的值
df.values

# 查看列名称
df.columns

# 查看前 3 行数据
df.head(3)

# 查看最后 3 行
df.tail(3)

# 删除数据表中含有空值的行
df.dropna(how='any')

# 使用数字 0 填充数据表中空值
df.fillna(value=0)

# 使用 price 均值对 NA 进行填充
df['price'] = df['price'].fillna(df['price'].mean())

# 清除 city 字段中的字符空格
df['city'] = df['city'].map(str.strip)

# city 列大小写转换
df['city'] = df['city'].str.lower()

# 更改数据格式
df['price'] = df['price'].astype('int')

# 更改列名称
df.rename(columns={'category': 'category-size'})

# 删除后出现的重复值
df['city'].drop_duplicates()

# 删除先出现的重复值
df['city'].drop_duplicates(keep='last')

# 数据替换
df['city'] = df['city'].replace('sh', 'shanghai')

# 创建 df1 数据表
df1 = pd.DataFrame({"id": [1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008],
                    "gender": ['male', 'female', 'male', 'female', 'male', 'female', 'male', 'female'],
                    "pay": ['Y', 'N', 'Y', 'Y', 'N', 'Y', 'N', 'Y'],
                    "m-point": [10, 12, 20, 40, 40, 40, 30, 20]})

# 数据表匹配合并，inner 模式
df_inner = pd.merge(df, df1, how='inner')

# 其他数据表匹配模式
df_left = pd.merge(df, df1, how='left')
df_right = pd.merge(df, df1, how='right')
df_outer = pd.merge(df, df1, how='outer')

# 设置索引列
df_inner.set_index('id')

# 按特定列的值排序
df_inner.sort_values(by=['age'])

# 按索引列排序
df_inner.sort_index()

# 如果 price 列的值>3000，group 列显示 high，否则显示 low
df_inner['group'] = np.where(df_inner['price'] > 3000, 'high', 'low')

# 对复合多个条件的数据进行分组标记
df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000), 'sign'] = 1

# 对 category 字段的值依次进行分列，并创建数据表
pd.DataFrame((x.split('-') for x in df_inner['category']), index=df_inner.index, columns=['category', 'size'])

# 将完成分列后的数据表与原 df_inner 数据表进行匹配
df_inner = pd.merge(df_inner, split, right_index=True, left_index=True)

# 按索引提取单行的数值
df_inner.loc[3]

# 按索引提取区域行数值
df_inner.loc[0:5]

# 重设索引
df_inner.reset_index()

# 设置日期为索引
df_inner = df_inner.set_index('date')

# 提取 4 日之前的所有数据
df_inner[:'2013-01-04']

# 使用 iloc 按位置区域提取数据
df_inner.iloc[:3, :2]

# 使用 iloc 按位置单独提取数据
df_inner.iloc[[0, 2, 5], [4, 5]]

# 使用 ix 按索引标签和位置混合提取数据
df_inner.ix[:'2013-01-03', :4]

# 判断 city 列的值是否为 beijing
df_inner['city'].isin(['beijing'])

# 先判断 city 列里是否包含 beijing 和 shanghai，然后将复合条件的数据提取出来
df_inner.loc[df_inner['city'].isin(['beijing', 'shanghai'])]

# 提取前三个字符，并生成数据表
category = df_inner['category']
pd.DataFrame(category.str[:3])

# 使用'与'条件进行筛选
df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beijing'), ['id', 'city', 'age', 'category', 'gender']]

# 使用'或'条件筛选
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beijing'), ['id', 'city', 'age', 'category', 'gender']].sort_values(['age'])

# 对筛选后的数据按 price 字段进行求和
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beijing'), ['id', 'city', 'age', 'category', 'gender', 'price']].sort_values(['age']).price.sum()

# 使用'非'条件进行筛选
df_inner.loc[(df_inner['city'] != 'beijing'), ['id', 'city', 'age', 'category', 'gender']].sort_values(['id'])

# 对筛选后的数据按 city 列进行计数
df_inner.loc[(df_inner['city'] != 'beijing'), ['id', 'city', 'age', 'category', 'gender']].sort_values(['id']).city.count()

# 使用 query 函数进行筛选
df_inner.query('city == ["beijing", "shanghai"]')

# 对筛选后的结果按 price 进行求和
df_inner.query('city == ["beijing", "shanghai"]').price.sum()

# 对所有列进行计数汇总
df_inner.groupby('city').count()

# 对特定的 ID 列进行计数汇总
df_inner.groupby('city')['id'].count()

# 对两个字段进行汇总计数
df_inner.groupby(['city', 'size'])['id'].count()

# 对 city 字段进行汇总并计算 price 的合计和均值
df_inner.groupby('city')['price'].agg([len, np.sum, np.mean])

# 数据透视表
pd.pivot_table(df_inner, index=["city"], values=["price"], columns=["size"], aggfunc=[len, np.sum], fill_value=0, margins=True)

# 简单的数据采样
df_inner.sample(n=3)

# 手动设置采样权重
weights = [0, 0, 0, 0, 0.5, 0.5]
df_inner.sample(n=2, weights=weights)

# 采样后不放回
df_inner.sample(n=6, replace=False)

# 采样后放回
df_inner.sample(n=6, replace=True)

# 数据表描述性统计
df_inner.describe().round(2).T

# 标准差
df_inner['price'].std()

# 两个字段间的协方差
df_inner['price'].cov(df_inner['m-point'])

# 相关性分析
df_inner['price'].corr(df_inner['m-point'])

# 数据表相关性分析
df_inner.corr()

# 输出到 excel 格式
df_inner.to_excel('excel_to_python.xlsx', sheet_name='bluewhale_cc')

# 输出到 CSV 格式
df_inner.to_csv('excel_to_python.csv')

# 创建数据表
df = pd.DataFrame({"id": [1001, 1002, 1003, 1004, 1005, 1006],
                   "date": pd.date_range('20130102', periods=6),
                   "city": ['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
                   "age": [23, 44, 54, 32, 34, 32],
                   "category": ['100-A', '100-B', '110-A', '110-C', '210-A', '130-F'],
                   "price": [1200, np.nan, 2133, 5433, np.nan, 4432]},
                   columns=['id', 'date', 'city', 'category', 'age', 'price'])

# 创建自定义函数
def table_info(x):
    shape = x.shape
    types = x.dtypes
    colums = x.columns
    print("数据维度 (行，列):\n", shape)
    print("数据格式:\n", types)
    print("列名称:\n", colums)

# 调用自定义函数获取 df 数据表信息并输出结果
table_info(df)

Python 数据分析实战：基于 Pandas 的数据处理全流程指南

前言

1. 生成数据表

导入数据表

创建数据表

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 数据表检查

数据维度 (行列)

数据表信息

查看数据格式

查看空值

查看唯一值

查看数据表数值

查看列名称

查看前 10 行数据

查看后 10 行数据

3. 数据表清洗

处理空值 (删除或填充)

清理空格

大小写转换

更改数据格式

更改列名称

删除重复值

数值修改及替换

4. 数据预处理

数据表合并

设置索引列

排序 (按索引，按数值)

数据分组

数据分列

5. 数据提取

按标签提取 (loc)

按位置提取 (iloc)

按标签和位置提取 (ix)

按条件提取 (区域和条件值)

6. 数据筛选

按条件筛选 (与，或，非)

7. 数据汇总

分类汇总

数据透视

8. 数据统计

数据采样

描述统计

9. 数据输出

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具