Pandas 数据读写与基础分析
Python 在数据处理领域有着天然的优势,尤其是结合 Numpy 和 Pandas 后,其功能远超 Excel 等桌面软件。Pandas 基于 Numpy 构建,提供了高效的数据结构和分析工具,非常适合数据挖掘、清洗和可视化任务。
环境准备
确保已安装 Python 环境。推荐使用 Anaconda 管理依赖,它预装了常用的科学计算库。
包管理
使用 conda 或 pip 安装所需模块:
# 创建虚拟环境(可选)
conda create -n myenv python=3.9
conda activate myenv
# 安装 pandas, numpy, matplotlib 等核心库
pip install pandas numpy matplotlib sqlalchemy pymysql
提示:国内用户若遇到下载慢,可指定镜像源,例如清华源:
pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple/
读写 CSV 与 TSV 文件
Pandas 处理表格数据的核心方法是 read_ 系列读取和 to_ 系列写入。
1. 基础配置
在开始之前,建议统一导入常用库并设置中文显示,避免绘图时出现乱码。
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt
# 解决中文显示问题
plt.rcParams['font.sans-serif'] = ['SimHei'] # Mac 用户可尝试 'Arial Unicode MS'
plt.rcParams['axes.unicode_minus'] = False
# 切换工作目录(根据实际路径调整)
os.chdir('./data')
2. 操作 CSV 文件
CSV 是最常见的逗号分隔格式。
# 读取 CSV,指定列名和分隔符
data = pd.read_csv('LJhouse.csv', sep=',', usecols=['open', 'high', 'close'])
# 查看前几行确认数据
print(data.head())
# 写入 CSV,index=False 表示不保存行索引
data[:10].to_csv(, sep=, index=)
()


