前言
在数据分析领域,掌握 Python 是提升效率的关键。许多初学者能够迅速熟悉 Python 基础语法后,便直接投入《利用 Python 进行数据分析》等经典教材的学习中。然而,单纯阅读理论往往导致实际操作时思路不清、漏洞百出。
学习过程中常见的误区在于'理解不够'与'实践不足',以及容易陷入'举三反一'的困惑状态。例如,在学习 Pandas 时,面对多种构造方式、索引方法及类似效果的实现路径,初学者容易感到无所适从。本文旨在通过梳理和精简核心知识点,帮助读者避开常见坑点,建立清晰的列向思维,从而高效掌握 Pandas 基础。
1. Pandas 简介
Pandas 是基于 NumPy 构建的专业数据分析工具,能够灵活高效地处理各种数据集。它提供了两种核心数据结构:DataFrame 和 Series。
- DataFrame:可理解为 Excel 中的一张表,由行和列组成,适合存储结构化数据。
- Series:可理解为表中某一列的数据,是一维数组。
所有 Pandas 的操作均基于这两种结构展开。与 Excel 或 SQL 相比,Pandas 的核心逻辑一致,都是对源数据进行一系列处理。但在正式处理前,明确分析目标、理清分析思路至关重要,这能显著提升工作效率。
2. 创建、读取和存储
2.1 创建 DataFrame
在 Pandas 中,最常用的创建方式是使用字典配合列表。首先导入库:
import pandas as pd
构造示例如下:
data = {
'姓名': ['张三', '李四', '王五'],
'年龄': [25, 30, 28],
'城市': ['北京', '上海', '广州']
}
df = pd.DataFrame(data)
在此结构中,字典的键作为列名,值(列表)作为列数据。列的顺序不影响最终结果,系统会自动生成从 0 开始的默认索引。
2.2 读取数据
实际工作中,更多时候需要读取外部文件。Pandas 支持 CSV 和 Excel 格式。
读取 CSV 文件:
# engine='python' 可避免部分编码问题
read_csv('data.csv', encoding='utf-8')
读取 Excel 文件:
read_excel('data.xlsx')
常用参数说明:
header:指定哪一行作为列名,默认为 0。sep:CSV 分隔符,默认为逗号。names:自定义列名。
2.3 存储数据
将处理后的数据保存回本地同样简单:


