Python 数据科学工具链入门:NumPy、Pandas、Matplotlib 实战指南
在机器学习与数据分析领域,算法是核心逻辑,而工具链则是实现逻辑的基础设施。就像烹饪需要锋利的刀具和精准的秤具一样,掌握 NumPy、Pandas 和 Matplotlib 这些基础库,能让你在处理数据时不再被环境或语法卡住。
本文旨在通过实战演示,帮助你快速建立从数据加载、清洗到可视化的完整工作流。
一、环境搭建
推荐使用 Anaconda 发行版,它预装了 Python 及大部分常用科学计算库,能有效避免依赖冲突。
- 访问官网下载对应系统的安装包。
- 安装时注意勾选 "Add to PATH"(Windows 用户)。
- 打开终端或 Anaconda Prompt,验证 Python 版本:
python --version
应显示 Python 3.9+。随后启动 Jupyter Notebook:
jupyter notebook
浏览器会自动打开文件管理界面,这就是你的开发环境。
二、NumPy:数值计算的基石
原生 Python 列表在科学计算中效率较低,因为每个元素都是对象且不支持向量化运算。NumPy 提供了高效的 ndarray 对象,底层由 C 语言实现,速度比纯 Python 快得多。
1. 创建数组
import numpy as np
# 从列表创建
arr = np.array([1, 2, 3, 4])
print(arr) # [1 2 3 4]
# 创建全零/全一数组
zeros = np.zeros(5) # [0. 0. 0. 0. 0.]
one = np.ones((2, 3)) # 2x3 全 1 矩阵
# 创建等差数列
linspace = np.linspace(0, 10, 5) # [0. 2.5 5. 7.5 10.]
# 创建随机数组
rand = np.random.rand(3, 2) # 3x2,值在 [0,1) 之间
2. 属性与形状操作
arr = np.array([[1, 2, 3], [4, 5, ]])
(, arr.shape)
(, arr.ndim)
(, arr.size)
(, arr.dtype)
reshaped = arr.reshape(, )
(reshaped)
flat = arr.flatten()


