Python 数据科学工具链入门：NumPy、Pandas 与 Matplotlib 实战 | 极客日志

PythonAI算法

Python 数据科学工具链入门：NumPy、Pandas 与 Matplotlib 实战

Python 数据科学基础教程，涵盖环境搭建、NumPy 数组运算、Pandas 数据处理及 Matplotlib 可视化。通过泰坦尼克号数据集演示完整分析流程，包括缺失值处理、特征工程及图表绘制。适合初学者建立数据分析工作流，为机器学习项目奠定基础。

板砖工程师发布于 2026/3/27更新于 2026/7/2443 浏览

Python 数据科学工具链入门：NumPy、Pandas 与 Matplotlib 实战

'工欲善其事，必先利其器。'在机器学习的世界里，你的'器'就是 Python 数据科学工具链。

为什么工具链如此重要？

想象你要做一道菜。即使背熟了所有食谱，如果厨房里只有生锈的刀、没校准的秤、漏底的锅，依然做不出好菜。

机器学习也是如此。算法是'菜谱'，而 NumPy、Pandas、Matplotlib 就是你的'刀、秤、锅'——它们构成了现代数据科学工作的基础设施。

很多初学者一上来就急着学'神经网络''梯度提升'，却连如何读取一个 CSV 文件都磕磕绊绊。结果是：想法很丰满，代码跑不动。

本文的目标很明确：

让你在短时间内掌握三大核心库的基础用法；
能独立完成 数据加载 → 清洗 → 探索 → 可视化 的完整流程；
为后续所有机器学习项目打下坚实工具基础。

不需要你成为专家，但要让你不再被工具卡住。

环境准备：5 分钟搭建你的'数据厨房'

推荐方式：使用 Anaconda（最省心）

访问 https://www.anaconda.com/products/distribution
下载对应你操作系统的安装包（Windows / macOS / Linux）
安装时勾选 'Add to PATH'（Windows 用户注意）
安装完成后，打开 Anaconda Prompt（Windows）或终端（macOS/Linux）

💡 Anaconda 自带 Python、NumPy、Pandas、Matplotlib、Jupyter 等几乎所有你需要的库，避免依赖冲突。

验证安装

在终端中输入：

python --version

应显示 Python 3.9+。

然后启动 Jupyter Notebook（推荐交互式开发环境）：

jupyter notebook

浏览器会自动打开一个文件管理界面——这就是你的'数据实验室'。

🔧 替代方案：如果你已用 pip 管理 Python，可手动安装：

pip install numpy pandas matplotlib seaborn jupyter

NumPy：高效数值计算的基石

为什么需要 NumPy？

Python 原生的 list 虽然灵活，但在科学计算中存在两大问题：

速度慢：每个元素都是 Python 对象，内存开销大；
不支持向量化运算：无法直接对整个数组做加减乘除。

而 NumPy（Numerical Python） 提供了：

ndarray：高效的多维数组对象；
广播机制（Broadcasting）：自动对不同形状的数组进行运算；
C 语言底层实现：比纯 Python 快 10–100 倍。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import numpy as np

# 从列表创建
arr = np.array([1, 2, 3, 4])
print(arr)  # [1 2 3 4]

# 创建全零/全一数组
zeros = np.zeros(5)          # [0. 0. 0. 0. 0.]
ones = np.ones((2, 3))       # 2x3 全 1 矩阵

# 创建等差数列
linspace = np.linspace(0, 10, 5)  # [0.  2.5  5.  7.5 10. ]

# 创建随机数组
rand = np.random.rand(3, 2)  # 3x2，值在 [0,1) 之间

arr = np.array([[1, 2, 3], [4, 5, 6]])

print("形状:", arr.shape)      # (2, 3)
print("维度:", arr.ndim)        # 2
print("元素总数:", arr.size)    # 6
print("数据类型:", arr.dtype)   # int64

# 改变形状（不改变数据）
reshaped = arr.reshape(3, 2)
print(reshaped)
# [[1 2]
#  [3 4]
#  [5 6]]

# 展平为一维
flat = arr.flatten()           # [1 2 3 4 5 6]

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# 元素级加法
print(a + b)                   # [5 7 9]

# 元素级乘法
print(a * b)                   # [ 4 10 18]

# 平方
print(a ** 2)                  # [1 4 9]

# 三角函数
print(np.sin(a))               # [0.8415 0.9093 0.1411]

# 条件筛选
print(a[a > 1])                # [2 3]

arr = np.array([1, 2, 3, 4, 5])

print("均值:", np.mean(arr))     # 3.0
print("标准差:", np.std(arr))    # 1.414...
print("最大值:", np.max(arr))     # 5
print("索引最大值:", np.argmax(arr))  # 4
print("求和:", np.sum(arr))       # 15

结构	维度	类比
`Series`	1D	带标签的一列数据（如 Excel 的一列）
`DataFrame`	2D	表格（如 Excel 工作表）

import pandas as pd

# 从字典创建
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['NYC', 'LA', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

    name  age     city
0  Alice   25      NYC
1    Bob   30       LA
2 Charlie   35  Chicago

# 方法 1：从 seaborn 加载（推荐初学者）
import seaborn as sns
titanic = sns.load_dataset('titanic')

# 方法 2：从本地 CSV 读取
# titanic = pd.read_csv('titanic.csv')

print("前 5 行:")
print(titanic.head())
print("\n基本信息:")
print(titanic.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   survived 891 non-null    int64  
 1   pclass   891 non-null    int64  
 2   sex      891 non-null    object 
 3   age      714 non-null    float64
 ...

# 查看维度
print("形状:", titanic.shape)            # (891, 15)

# 统计摘要（仅数值列）
print(titanic.describe())

# 查看分类变量分布
print(titanic['sex'].value_counts())
# male    577
# female  314

# 检查缺失值
print(titanic.isnull().sum())
# age         177
# embarked      2
# deck        688 ← 大量缺失，可能需删除

# 单列（返回 Series）
ages = titanic['age']

# 多列（返回 DataFrame）
subset = titanic[['name', 'age', 'fare']]

# 条件筛选
survived_females = titanic[(titanic['survived'] == 1) & (titanic['sex'] == 'female')]

# 使用 .loc（基于标签）
first_row = titanic.loc[0, ['name', 'age']]

# 使用 .iloc（基于位置）
first_three = titanic.iloc[:3, :5]  # 前 3 行，前 5 列

# 方案 1：删除含缺失的行（谨慎使用！）
titanic_clean1 = titanic.dropna()

# 方案 2：用均值填充年龄
titanic['age'].fillna(titanic['age'].mean(), inplace=True)

# 方案 3：用众数填充登船港口
mode_embarked = titanic['embarked'].mode()[0]
titanic['embarked'].fillna(mode_embarked, inplace=True)

# 验证
print(titanic[['age', 'embarked']].isnull().sum())  # 应为 0

# 创建新特征：家庭规模 = 兄弟姐妹 + 父母子女 + 自己
titanic['family_size'] = titanic['sibsp'] + titanic['parch'] + 1

# 分箱：将年龄分为儿童/成人/老人
titanic['age_group'] = pd.cut(
    titanic['age'], 
    bins=[0, 18, 65, 100], 
    labels=['Child', 'Adult', 'Senior']
)

# 编码分类变量（字符串 → 数字）
titanic['sex_encoded'] = titanic['sex'].map({'male': 0, 'female': 1})

# 查看结果
print(titanic[['age', 'age_group', 'sex', 'sex_encoded']].head())

import matplotlib.pyplot as plt

# 设置中文字体（避免乱码）
plt.rcParams['font.sans-serif'] = ['SimHei']  # Windows
# plt.rcParams['font.family'] = 'Arial Unicode MS'  # macOS

# 示例 1：直方图（年龄分布）
plt.figure(figsize=(8, 5))
plt.hist(titanic['age'], bins=20, color='skyblue', edgecolor='black')
plt.title('泰坦尼克号乘客年龄分布')
plt.xlabel('年龄')
plt.ylabel('人数')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

import seaborn as sns

# 示例 2：生存率 vs 性别（柱状图）
plt.figure(figsize=(6, 4))
sns.barplot(x='sex', y='survived', data=titanic)
plt.title('不同性别的生存率')
plt.ylabel('生存概率')
plt.show()

# 年龄 vs 票价，颜色表示是否生存
plt.figure(figsize=(8, 6))
sns.scatterplot(
    x='age', 
    y='fare', 
    hue='survived', 
    data=titanic, 
    alpha=0.7
)
plt.title('年龄与票价的关系（按生存状态着色）')
plt.show()

# 选择数值列
numeric_cols = titanic.select_dtypes(include=['number']).columns
corr_matrix = titanic[numeric_cols].corr()

# 绘制热力图
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0)
plt.title('数值特征相关性热力图')
plt.show()

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# 加载数据
df = sns.load_dataset('titanic')

# 基础清洗
df['age'].fillna(df['age'].median(), inplace=True)
df.drop(columns=['deck', 'embark_town'], inplace=True)  # 删除高缺失列
df.dropna(subset=['embarked'], inplace=True)

df['family_size'] = df['sibsp'] + df['parch'] + 1
df['is_alone'] = (df['family_size'] == 1).astype(int)

fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 1. 舱位等级 vs 生存率
sns.barplot(x='pclass', y='survived', data=df, ax=axes[0, 0])
axes[0, 0].set_title('舱位等级与生存率')

# 2. 是否独自旅行 vs 生存率
sns.barplot(x='is_alone', y='survived', data=df, ax=axes[0, 1])
axes[0, 1].set_title('独自旅行与生存率')
axes[0, 1].set_xticklabels(['否', '是'])

# 3. 年龄分布（按生存状态）
df[df['survived'] == 1]['age'].hist(alpha=0.7, label='生存', ax=axes[1, 0])
df[df['survived'] == 0]['age'].hist(alpha=0.7, label='遇难', ax=axes[1, 0])
axes[1, 0].set_title('年龄分布对比')
axes[1, 0].legend()

# 4. 票价分布（对数尺度）
df.boxplot(column='fare', by='survived', ax=axes[1, 1])
axes[1, 1].set_yscale('log')
axes[1, 1].set_title('票价分布（对数尺度）')

plt.tight_layout()
plt.show()

df_clean = df.dropna()  # 显式创建新对象

df[df['age'] > 30]['fare'] = 100  # 可能报 SettingWithCopyWarning

df.loc[df['age'] > 30, 'fare'] = 100

Python 数据科学工具链入门：NumPy、Pandas 与 Matplotlib 实战

Python 数据科学工具链入门：NumPy、Pandas 与 Matplotlib 实战

为什么工具链如此重要？

环境准备：5 分钟搭建你的'数据厨房'

推荐方式：使用 Anaconda（最省心）

验证安装

NumPy：高效数值计算的基石

为什么需要 NumPy？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1. 创建数组

2. 数组属性与形状操作

3. 向量化运算（无需 for 循环！）

4. 常用数学函数

Pandas：让数据处理像 Excel 一样直观

核心数据结构

1. 创建 DataFrame

2. 读取真实数据（CSV/Excel）

3. 基础探索：了解你的数据

4. 数据筛选与索引

5. 处理缺失值（数据清洗第一步）

6. 特征工程初探（为 ML 做准备）

Matplotlib 与 Seaborn：用图表讲好数据故事

1. Matplotlib：基础绘图库

2. Seaborn：统计可视化利器（基于 Matplotlib）

3. 散点图：探索变量关系

4. 热力图：查看相关性

端到端实战：从原始数据到洞察

目标：分析泰坦尼克号乘客的生存影响因素

步骤 1：加载与清洗

步骤 2：创建新特征

步骤 3：可视化关键发现

关键洞察：

常见陷阱与最佳实践

1. 不要滥用 inplace=True

2. 避免链式索引（Chained Indexing）

3. 可视化前先检查数据分布

4. 保持代码可复现

下一步：为机器学习做准备

动手实践建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1. 不要滥用 `inplace=True`