Python 数据分析实战：从数据生成到统计输出详解 | 极客日志

Python算法

Python 数据分析实战：从数据生成到统计输出详解

使用 Python 进行数据分析的完整流程，涵盖数据生成、导入、检查、清洗、预处理、提取、筛选、汇总、统计分析及输出。通过与 Excel 功能对比，展示了 Pandas 库在处理大规模数据时的优势。内容包含数据表创建、空值处理、格式转换、合并排序、条件筛选、分组聚合、描述统计及结果导出等核心操作，并提供具体代码示例，帮助读者掌握从数据准备到最终输出的关键技能。

月光旅人发布于 2025/2/6更新于 2026/7/2055 浏览

Python 数据分析实战指南

常遇到两类朋友。一类是会爬虫但不知道如何进一步做数据分析的，一类是平常用 Excel 做分析但不太会用 Python 分析的。如果和你很像，那下面这篇系统长文会很适合你。

Excel 是数据分析中最常用的工具，本文通过 Python 与 Excel 的功能对比介绍如何使用 Python 通过函数式编程完成 Excel 中的数据处理及分析工作。从 Pandas 官网文档中总结出最常用的函数，通过这些函数介绍如何通过 Python 完成数据生成和导入、数据清洗、预处理、数据分类、数据筛选、分类汇总、透视等最常见的操作。

01 生成数据表

第一部分是生成数据表，常见的生成方法有两种，第一种是导入外部数据，第二种是直接写入数据。Excel 中的文件菜单中提供了获取外部数据的功能，支持数据库和文本文件和页面的多种数据源导入。

导入数据表

Python 支持从多种类型的数据导入。在开始使用 Python 进行数据导入前需要先导入 pandas 库，为了方便起见，我们也同时导入 numpy 库。

import numpy as np
import pandas as pd

下面分别是从 Excel 和 CSV 格式文件导入数据并创建数据表的方法。代码是最简模式，里面有很多可选参数设置，例如列名称，索引列，数据格式等等。感兴趣的朋友可以参考 Pandas 的官方文档。

df = pd.DataFrame(pd.read_csv('name.csv', header=1))
df = pd.DataFrame(pd.read_excel('name.xlsx'))

创建数据表

另一种方法是通过直接写入数据来生成数据表，Excel 中直接在单元格中输入数据就可以，Python 中通过下面的代码来实现。生成数据表的函数是 Pandas 库中的 DataFrame 函数，数据表一共有 6 行数据，每行有 6 个字段。在数据中我们特意设置了一些 NA 值和有问题的字段，例如包含空格等。后面将在数据清洗步骤进行处理。后面我们将统一以 DataFrame 的简称 df 来命名数据表。

df = pd.DataFrame({
    "id": [1001, 1002, 1003, 1004, 1005, 1006],
    "date": pd.date_range('20130102', periods=6),
    "city": ['Beijing ', 'SH', 'guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
    "age": [23, 44, 54, 32, 34, ],
    : [, , , , , ],
    : [, np.nan, , , np.nan, ]
}, columns=[, , , , , ])

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

# 查看数据表的维度
df.shape
# (6, 6)

# 数据表信息
df.info()

# 查看数据表各列格式
df.dtypes

# 查看单列格式
df['id'].dtype

# 检查数据空值
df.isnull()

# 检查特定列空值
df['price'].isnull()

# 查看 city 列中的唯一值
df['city'].unique()

# 查看数据表的值
df.values

# 查看列名称
df.columns

# 查看前 3 行数据
df.head(3)

# 查看最后 3 行
df.tail(3)

# 删除数据表中含有空值的行
df.dropna(how='any')

# 使用数字 0 填充数据表中空值
df.fillna(value=0)

# 使用 price 均值对 NA 进行填充
df['price'].fillna(df['price'].mean())

# 清除 city 字段中的字符空格
df['city'] = df['city'].map(str.strip)

# city 列大小写转换
df['city'] = df['city'].str.lower()

# 更改数据格式
df['price'].astype('int')

# 更改列名称
df.rename(columns={'category': 'category-size'})

df['city']

# 删除后出现的重复值
df['city'].drop_duplicates()

# 删除先出现的重复值
df['city'].drop_duplicates(keep='last')

# 数据替换
df['city'].replace('sh', 'shanghai')

# 创建 df1 数据表
df1 = pd.DataFrame({
    "id": [1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008],
    "gender": ['male', 'female', 'male', 'female', 'male', 'female', 'male', 'female'],
    "pay": ['Y', 'N', 'Y', 'Y', 'N', 'Y', 'N', 'Y'],
    "m-point": [10, 12, 20, 40, 40, 40, 30, 20]
})

# 数据表匹配合并，inner 模式
df_inner = pd.merge(df, df1, how='inner')

# 其他数据表匹配模式
df_left = pd.merge(df, df1, how='left')
df_right = pd.merge(df, df1, how='right')
df_outer = pd.merge(df, df1, how='outer')

# 设置索引列
df_inner.set_index('id')

# 按特定列的值排序
df_inner.sort_values(by=['age'])

# 按索引列排序
df_inner.sort_index()

# 如果 price 列的值>3000，group 列显示 high，否则显示 low
df_inner['group'] = np.where(df_inner['price'] > 3000, 'high', 'low')

# 对复合多个条件的数据进行分组标记
df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000), 'sign'] = 1

# 对 category 字段的值依次进行分列，并创建数据表，索引值为 df_inner 的索引列，列名称为 category 和 size
pd.DataFrame((x.split('-') for x in df_inner['category']), index=df_inner.index, columns=['category', 'size'])

# 将完成分列后的数据表与原 df_inner 数据表进行匹配
df_inner = pd.merge(df_inner, split_df, right_index=True, left_index=True)

# 按索引提取单行的数值
df_inner.loc[3]

# 按索引提取区域行数值
df_inner.loc[0:5]

# 重设索引
df_inner.reset_index()

# 设置日期为索引
df_inner = df_inner.set_index('date')

# 提取 4 日之前的所有数据
df_inner[:'2013-01-04']

# 使用 iloc 按位置区域提取数据
df_inner.iloc[:3, :2]

# 使用 iloc 按位置单独提取数据
df_inner.iloc[[0, 2, 5], [4, 5]]

# 使用 ix 按索引标签和位置混合提取数据
df_inner.ix[:'2013-01-03', :4]

# 判断 city 列的值是否为 beijing
df_inner['city'].isin(['beijing'])

# 先判断 city 列里是否包含 beijing 和 shanghai，然后将复合条件的数据提取出来。
df_inner.loc[df_inner['city'].isin(['beijing', 'shanghai'])]

category = df_inner['category']
# 提取前三个字符，并生成数据表
pd.DataFrame(category.str[:3])

# 使用'与'条件进行筛选
df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beijing'), ['id', 'city', 'age', 'category', 'gender']]

# 使用'或'条件筛选
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beijing'), ['id', 'city', 'age', 'category', 'gender']].sort_values(['age'])

# 对筛选后的数据按 price 字段进行求和
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beijing'), ['id', 'city', 'age', 'category', 'gender', 'price']].sort_values(['age']).price.sum()

# 使用'非'条件进行筛选
df_inner.loc[(df_inner['city'] != 'beijing'), ['id', 'city', 'age', 'category', 'gender']].sort_values(['id'])

# 对筛选后的数据按 city 列进行计数
df_inner.loc[(df_inner['city'] != 'beijing'), ['id', 'city', 'age', 'category', 'gender']].sort_values(['id']).city.count()

# 使用 query 函数进行筛选
df_inner.query('city == ["beijing", "shanghai"]')

# 对筛选后的结果按 price 进行求和
df_inner.query('city == ["beijing", "shanghai"]').price.sum()

# 对所有列进行计数汇总
df_inner.groupby('city').count()

# 对特定的 ID 列进行计数汇总
df_inner.groupby('city')['id'].count()

# 对两个字段进行汇总计数
df_inner.groupby(['city', 'size'])['id'].count()

# 对 city 字段进行汇总并计算 price 的合计和均值。
df_inner.groupby('city')['price'].agg([len, np.sum, np.mean])

# 数据透视表
pd.pivot_table(df_inner, index=["city"], values=["price"], columns=["size"], aggfunc=[len, np.sum], fill_value=0, margins=True)

# 简单的数据采样
df_inner.sample(n=3)

# 手动设置采样权重
weights = [0, 0, 0, 0, 0.5, 0.5]
df_inner.sample(n=2, weights=weights)

# 采样后不放回
df_inner.sample(n=6, replace=False)

# 采样后放回
df_inner.sample(n=6, replace=True)

# 数据表描述性统计
df_inner.describe().round(2).T

# 标准差
df_inner['price'].std()

# 两个字段间的协方差
df_inner['price'].cov(df_inner['m-point'])

# 相关性分析
df_inner['price'].corr(df_inner['m-point'])
df_inner.corr()

# 输出到 excel 格式
df_inner.to_excel('excel_to_python.xlsx', sheet_name='output_data')

# 输出到 CSV 格式
df_inner.to_csv('excel_to_python.csv')

# 创建数据表
df = pd.DataFrame({
    "id": [1001, 1002, 1003, 1004, 1005, 1006],
    "date": pd.date_range('20130102', periods=6),
    "city": ['Beijing ', 'SH', 'guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
    "age": [23, 44, 54, 32, 34, 32],
    "category": ['100-A', '100-B', '110-A', '110-C', '210-A', '130-F'],
    "price": [1200, np.nan, 2133, 5433, np.nan, 4432]
}, columns=['id', 'date', 'city', 'category', 'age', 'price'])

# 创建自定义函数
def table_info(x):
    shape = x.shape
    types = x.dtypes
    colums = x.columns
    print("数据维度 (行，列):\n", shape)
    print("数据格式:\n", types)
    print("列名称:\n", colums)

# 调用自定义函数获取 df 数据表信息并输出结果
table_info(df)

Python 数据分析实战：从数据生成到统计输出详解

Python 数据分析实战指南

01 生成数据表

导入数据表

创建数据表

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

02 数据表检查

数据维度 (行列)

数据表信息

查看数据格式

查看空值

查看唯一值

查看数据表数值

查看列名称

查看前 10 行数据

查看后 10 行数据

03 数据表清洗

处理空值 (删除或填充)

清理空格

大小写转换

更改数据格式

更改列名称

删除重复值

数值修改及替换

04 数据预处理

数据表合并

设置索引列

排序 (按索引，按数值)

数据分组

数据分列

05 数据提取

按标签提取 (loc)

按位置提取 (iloc)

按标签和位置提取 (ix)

按条件提取（区域和条件值）

06 数据筛选

按条件筛选（与，或，非）

07 数据汇总

分类汇总

数据透视

08 数据统计

数据采样

描述统计

09 数据输出

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具