Python 数据分析基础:Numpy 与 Pandas
在 Python 数据科学生态中,Numpy(Numerical Python)和 Pandas 是最核心的两个库。Numpy 专注于高效的数值计算和矩阵运算,其底层基于 C 语言实现,性能远高于原生列表;Pandas 则构建在 Numpy 之上,提供了更高级的数据结构(如 Series 和 DataFrame),专门用于处理结构化数据和进行复杂的数据分析任务。
一、环境准备与导入
使用前需确保已安装相关库。若未安装,可通过 pip 命令安装:
pip install numpy pandas openpyxl
在代码中,通常使用以下约定导入:
import numpy as np
import pandas as pd
二、Numpy 核心功能
1. 数组创建与属性
Numpy 的核心对象是 ndarray(多维数组)。创建数组常用 array 函数,内部元素类型必须一致。
import numpy as np
# 创建一维数组
arr1d = np.array([1, 2, 3, 4])
# 创建二维数组(矩阵)
arr2d = np.array([[1, 2], [3, 4]])
# 查看数组属性
print(f"维度:{arr2d.ndim}") # 输出 2
print(f"形状:{arr2d.shape}") # 输出 (2, 2)
print(f"数据类型:{arr2d.dtype}") # 输出 int64
2. 索引与切片
Numpy 支持类似列表的切片操作,但效率更高。注意索引从 0 开始。
# 获取第一行第二列的元素
val = arr2d[0, 1]
# 切片操作
sub_arr = arr2d[:1, :] # 获取第一行所有列


