一、数据处理与计算类
这类库是数据科学、数值计算的基础,补充 pandas 的能力边界。
1. NumPy(数值计算核心库)
核心用途:处理多维数组(矩阵)、数值运算(线性代数、傅里叶变换等),是 pandas、matplotlib 的底层依赖,比 Python 原生列表运算快数十倍。典型场景:数值模拟、矩阵运算、数据标准化。
import numpy as np # 案例:创建数组 + 基础运算 # 1. 创建二维数组(矩阵) arr = np.array([[1, 2, 3], [4, 5, 6]]) print("原始数组:\n", arr) # 2. 数组形状(行数、列数) print("数组形状:", arr.shape) # 输出 (2, 3) # 3. 矩阵乘法(转置后相乘) arr_transpose = arr.T # 转置 result = arr @ arr_transpose # 矩阵乘法(等价于 np.dot(arr, arr_transpose)) print("矩阵乘法结果:\n", result) # 4. 数值统计 print("数组平均值:", arr.mean()) # 输出 3.5
前置条件:pip install numpy
2. SciPy(科学计算库)
核心用途:基于 NumPy 扩展,提供更专业的科学计算功能(积分、优化、信号处理、统计检验等)。典型场景:物理建模、数据拟合、假设检验。
import numpy as np from scipy.optimize import curve_fit # 案例:数据拟合(拟合一条直线) # 1. 模拟数据 x = np.linspace(0, 10, 50) # 0 到 10 的 50 个均匀点 y = 2 * x + 3 + np.random.normal(0, 0.5, 50) # y=2x+3 + 随机噪声 # 2. 定义拟合函数(直线) def linear_func(x, a, b): return a * x + b # 3. 拟合数据,得到参数 a、b params, _ = curve_fit(linear_func, x, y) a, b = params print(f"拟合结果:y = {a:.2f}x + {b:.2f}") # 接近 y=2x+3
前置条件:pip install scipy
二、数据可视化类
补充 matplotlib,提供更美观、交互性更强的可视化方案。
1. Seaborn(高级可视化库)
核心用途:基于 matplotlib,专为统计数据可视化设计,默认样式更美观,支持一键绘制热力图、箱线图、分布图等。典型场景:统计分析可视化、数据分布展示。
import seaborn as sns import matplotlib.pyplot as plt # 设置中文显示 plt.rcParams["font.sans-serif"] = ["SimHei"] plt.rcParams["axes.unicode_minus"] = False # 案例:绘制热力图(展示数据相关性) # 1. 加载内置数据集(鸢尾花数据) df = sns.load_dataset("iris") # 2. 计算数值列的相关性矩阵 corr = df.select_dtypes(include="float64").corr() # 3. 绘制热力图 sns.heatmap(corr, annot=True, cmap="coolwarm", fmt=".2f") plt.title("鸢尾花数据相关性热力图") plt.show()

