Pandas 入门：Python 数据分析实战基础 | 极客日志

PythonAI算法

Pandas 入门：Python 数据分析实战基础

Pandas 是 Python 数据分析的核心库，基于 NumPy 提供高效的数据结构。涵盖 Pandas 基础操作，包括 DataFrame 与 Series 概念、文件读写、数据概览、列增删改查及数据类型处理。通过实例演示字符串清洗、数值计算和时间序列转换，帮助初学者建立列向思维，掌握数据预处理流程，为后续复杂分析打下基础。

深海蔚蓝发布于 2025/2/7更新于 2026/6/322 浏览

前言

在数据分析领域，掌握 Python 是提升效率的关键。许多初学者能够迅速熟悉 Python 基础语法后，便直接投入《利用 Python 进行数据分析》等经典教材的学习中。然而，单纯阅读理论往往导致实际操作时思路不清、漏洞百出。

学习过程中常见的误区在于'理解不够'与'实践不足'，以及容易陷入'举三反一'的困惑状态。例如，在学习 Pandas 时，面对多种构造方式、索引方法及类似效果的实现路径，初学者容易感到无所适从。本文旨在通过梳理和精简核心知识点，帮助读者避开常见坑点，建立清晰的列向思维，从而高效掌握 Pandas 基础。

1. Pandas 简介

Pandas 是基于 NumPy 构建的专业数据分析工具，能够灵活高效地处理各种数据集。它提供了两种核心数据结构：DataFrame 和 Series。

DataFrame：可理解为 Excel 中的一张表，由行和列组成，适合存储结构化数据。
Series：可理解为表中某一列的数据，是一维数组。

所有 Pandas 的操作均基于这两种结构展开。与 Excel 或 SQL 相比，Pandas 的核心逻辑一致，都是对源数据进行一系列处理。但在正式处理前，明确分析目标、理清分析思路至关重要，这能显著提升工作效率。

2. 创建、读取和存储

2.1 创建 DataFrame

在 Pandas 中，最常用的创建方式是使用字典配合列表。首先导入库：

import pandas as pd

构造示例如下：

data = {
    '姓名': ['张三', '李四', '王五'],
    '年龄': [25, 30, 28],
    '城市': ['北京', '上海', '广州']
}
df = pd.DataFrame(data)

在此结构中，字典的键作为列名，值（列表）作为列数据。列的顺序不影响最终结果，系统会自动生成从 0 开始的默认索引。

2.2 读取数据

实际工作中，更多时候需要读取外部文件。Pandas 支持 CSV 和 Excel 格式。

读取 CSV 文件：

# engine='python' 可避免部分编码问题
read_csv('data.csv', encoding='utf-8')

读取 Excel 文件：

read_excel('data.xlsx')

常用参数说明：

header：指定哪一行作为列名，默认为 0。
sep：CSV 分隔符，默认为逗号。
names：自定义列名。

2.3 存储数据

将处理后的数据保存回本地同样简单：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 保存为 CSV
df.to_csv('output.csv', index=False)

# 保存为 Excel
df.to_excel('output.xlsx', index=False)

df.head(5)   # 默认前 5 行
df.tail(10)  # 后 10 行

df.info()

df.describe()

df['新列'] = df['旧列'] * 2

# inplace=True 表示原地修改，否则返回新对象
df.drop(columns=['列名'], axis=1, inplace=True)

# 单列
col_data = df['列名']

# 多列
multi_col = df[['列名 1', '列名 2']]

df['列名'] = 新值 或 df['列名'].apply(函数)

# 去除首尾空格
df['列名'] = df['列名'].str.strip()

# 替换特定字符
df['列名'] = df['列名'].str.replace('-', '')

# 列 + 标量
df['访客数'] += 10000

# 列与列运算
df['销售额'] = df['访客数'] * df['转化率'] * df['客单价']

# 移除百分号并转为浮点
df['转化率'] = df['转化率'].str.replace('%', '').astype(float) / 100

# 字符串转时间
df['日期'] = pd.to_datetime(df['日期'])

# 时间计算
df['剩余天数'] = (pd.Timestamp('2019-12-31') - df['日期']).dt.days

# 判断是否为空
df.isnull()

# 统计每列缺失数量
df.isnull().sum()

df.dropna(inplace=True)

# 填充 0
df.fillna(0, inplace=True)

# 填充均值
df['数值列'].fillna(df['数值列'].mean(), inplace=True)

Pandas 入门：Python 数据分析实战基础

前言

1. Pandas 简介

2. 创建、读取和存储

2.1 创建 DataFrame

2.2 读取数据

2.3 存储数据

更多推荐文章

相关免费在线工具

3. 快速认识数据

3.1 查看数据头部与尾部

3.2 数据格式概览

3.3 统计信息概览

4. 列的基本处理方式

4.1 增

4.2 删

4.3 选

4.4 改

5. 常用数据类型及操作

5.1 字符串处理

5.2 数值型计算

5.3 时间类型

6. 缺失值处理

6.1 检测缺失值

6.2 处理缺失值

7. 常见错误与注意事项

8. 总结与进阶

更多推荐文章

相关免费在线工具

Pandas 入门：Python 数据分析实战基础

前言

1. Pandas 简介

2. 创建、读取和存储

2.1 创建 DataFrame

2.2 读取数据

2.3 存储数据

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 快速认识数据

3.1 查看数据头部与尾部

3.2 数据格式概览

3.3 统计信息概览

4. 列的基本处理方式

4.1 增

4.2 删

4.3 选

4.4 改

5. 常用数据类型及操作

5.1 字符串处理

5.2 数值型计算

5.3 时间类型

6. 缺失值处理

6.1 检测缺失值

6.2 处理缺失值

7. 常见错误与注意事项

8. 总结与进阶

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具