Pandas 入门核心技巧与实战指南 | 极客日志

PythonAI算法

Pandas 入门核心技巧与实战指南

Pandas 作为 Python 数据分析的核心工具，掌握其基础操作至关重要。内容涵盖 DataFrame 创建、数据探索、切片选取及常用函数应用。通过字典构建数据框、读取本地文件、查看统计信息、布尔索引筛选以及分组聚合等操作，帮助初学者快速上手数据处理流程，提升分析效率。重点讲解了条件筛选中的符号规范、字符串处理方法以及分组统计的实际应用场景。

XiaoPingzi发布于 2025/2/3更新于 2026/7/1030 浏览

Python 数据分析领域，Pandas 是绕不开的核心工具。掌握其基础操作，能极大提升数据处理效率。本文将结合实际案例，梳理从数据创建、探索到清洗分析的常用技巧。

首先，导入必要的库：

import pandas as pd
import numpy as np

一、创建 DataFrame 数据

1. 通过字典构建

利用 Python 字典可以直接初始化 DataFrame，适合小规模数据测试：

df = pd.DataFrame({
    "name": ["小明", "小红", "小孙", "王小", "关宇", "刘蓓", "张菲"],
    "age": [20, 18, 27, 20, 28, 18, 25],
    "sex": ["男", "女", "男", "男", "男", "女", "女"],
    "score": [669, 570, 642, 590, 601, 619, 701],
    "address": ["北京", "深圳", "广州", "武汉", "深圳", "广州", "长沙"]
})
print(df)

2. 读取本地文件

处理真实业务时，通常从 Excel 或 CSV 加载数据：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 读取 Excel 文件
df = pd.read_excel("学生信息.xlsx")

print(df.shape)      # (7, 5)
print(df.columns)    # Index(['name', 'age', ...], dtype='object')
print(df.dtypes)     # 查看数据类型

print(df.isnull().sum())

print(df.describe())

# 默认查看前 5 行
df.head()

# 指定行数，如前 3 行
df.head(3)

# 尾部数据
df.tail(3)

# 单列
name_col = df["name"]

# 多列
subset = df[["name", "age"]]

# 仅保留整数类型列
df.select_dtypes(include="int64")

# 排除整数类型
df.select_dtypes(exclude="int64")

# 年龄等于 20
df[df["age"] == 20]

# 年龄大于等于 20 且小于 27
df[(df["age"] >= 20) & (df["age"] < 27)]

# 包含'小'字的名字
df[df["name"].str.contains("小")]

# 以'小'开头
df[df["name"].str.startswith("小")]

# 不包含'小'
df[~df["name"].str.contains("小")]

# 从索引 4 取到末尾
df[4:]

# 步长为 2，每隔一行取一次
df[::2]

# 倒序输出
df[::-1]

city_counts = df["address"].value_counts()

male_df = df[df["sex"] == "男"].reset_index(drop=True)

df.rename(columns={"index": "city", "address": "location"}, inplace=True)

# 按性别统计总分
sex_score = df.groupby("sex")["score"].sum()

# 按性别和班级统计平均分
result = df.groupby(["sex", "class"])["score"].mean().reset_index()

# 将性别转换为数字
# 方式一：lambda 表达式
df["sex_code"] = df["sex"].apply(lambda x: 1 if x == "男" else 0)

# 方式二：自定义函数
def map_sex(x):
    return 1 if x == "男" else 0

df["sex_code"] = df["sex"].apply(map_sex)

Pandas 入门核心技巧与实战指南

一、创建 DataFrame 数据

1. 通过字典构建

2. 读取本地文件

更多推荐文章

相关免费在线工具

二、数据探索

查看基本信息

缺失值检查

描述性统计

三、查看头尾数据

四、灵活取数

1. 选择特定列

2. 按数据类型筛选

3. 条件筛选

4. 字符串匹配

五、切片操作

六、常用函数应用

1. 统计频次

2. 重置索引

3. 重命名列

4. 分组聚合

5. apply 函数

总结

更多推荐文章

相关免费在线工具

Pandas 入门核心技巧与实战指南

一、创建 DataFrame 数据

1. 通过字典构建

2. 读取本地文件

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、数据探索

查看基本信息

缺失值检查

描述性统计

三、查看头尾数据

四、灵活取数

1. 选择特定列

2. 按数据类型筛选

3. 条件筛选

4. 字符串匹配

五、切片操作

六、常用函数应用

1. 统计频次

2. 重置索引

3. 重命名列

4. 分组聚合

5. apply 函数

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具