Python 数据科学工具链入门：NumPy、Pandas、Matplotlib 实战指南 | 极客日志

PythonAI算法

Python 数据科学工具链入门：NumPy、Pandas、Matplotlib 实战指南

NumPy、Pandas、Matplotlib 是 Python 数据科学的核心库。通过泰坦尼克号数据集演示了从环境搭建、数据清洗、特征工程到可视化的完整流程，重点讲解了数组操作、缺失值处理及图表绘制技巧，帮助开发者快速构建数据分析能力。

氛围发布于 2026/3/24更新于 2026/7/2032 浏览

Python 数据科学工具链入门：NumPy、Pandas、Matplotlib 实战指南

在机器学习与数据分析领域，算法是核心逻辑，而工具链则是实现逻辑的基础设施。就像烹饪需要锋利的刀具和精准的秤具一样，掌握 NumPy、Pandas 和 Matplotlib 这些基础库，能让你在处理数据时不再被环境或语法卡住。

本文旨在通过实战演示，帮助你快速建立从数据加载、清洗到可视化的完整工作流。

一、环境搭建

推荐使用 Anaconda 发行版，它预装了 Python 及大部分常用科学计算库，能有效避免依赖冲突。

访问官网下载对应系统的安装包。
安装时注意勾选 "Add to PATH"（Windows 用户）。
打开终端或 Anaconda Prompt，验证 Python 版本：

python --version

应显示 Python 3.9+。随后启动 Jupyter Notebook：

jupyter notebook

浏览器会自动打开文件管理界面，这就是你的开发环境。

二、NumPy：数值计算的基石

原生 Python 列表在科学计算中效率较低，因为每个元素都是对象且不支持向量化运算。NumPy 提供了高效的 ndarray 对象，底层由 C 语言实现，速度比纯 Python 快得多。

1. 创建数组

import numpy as np

# 从列表创建
arr = np.array([1, 2, 3, 4])
print(arr)  # [1 2 3 4]

# 创建全零/全一数组
zeros = np.zeros(5)      # [0. 0. 0. 0. 0.]
one = np.ones((2, 3))    # 2x3 全 1 矩阵

# 创建等差数列
linspace = np.linspace(0, 10, 5)  # [0.  2.5  5.  7.5 10.]

# 创建随机数组
rand = np.random.rand(3, 2)  # 3x2，值在 [0,1) 之间

2. 属性与形状操作

arr = np.array([[1, 2, 3], [4, 5, ]])

(, arr.shape)        
(, arr.ndim)          
(, arr.size)      
(, arr.dtype)     


reshaped = arr.reshape(, )
(reshaped)





flat = arr.flatten()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# 元素级加法
print(a + b)  # [5 7 9]

# 元素级乘法
print(a * b)  # [4 10 18]

# 条件筛选
print(a[a > 1])  # [2 3]

import pandas as pd

data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['NYC', 'LA', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

import seaborn as sns

titanic = sns.load_dataset('titanic')

# 查看前 5 行
print(titanic.head())

# 基本信息（含缺失值统计）
print(titanic.info())

# 数值列统计摘要
print(titanic.describe())

# 检查缺失值
print(titanic.isnull().sum())

# 单列返回 Series
ages = titanic['age']

# 多列返回 DataFrame
subset = titanic[['name', 'age', 'fare']]

# 条件筛选
survived_females = titanic[(titanic['survived'] == 1) & (titanic['sex'] == 'female')]

# 基于标签索引
first_row = titanic.loc[0, ['name', 'age']]

# 基于位置索引
first_three = titanic.iloc[:3, :5]  # 前 3 行，前 5 列

# 方案 1：删除含缺失的行（谨慎使用）
df_clean1 = titanic.dropna()

# 方案 2：用均值填充年龄
titanic['age'].fillna(titanic['age'].mean(), inplace=True)

# 方案 3：用众数填充登船港口
mode_embarked = titanic['embarked'].mode()[0]
titanic['embarked'].fillna(mode_embarked, inplace=True)

# 验证
print(titanic[['age', 'embarked']].isnull().sum())

# 创建新特征：家庭规模
titanic['family_size'] = titanic['sibsp'] + titanic['parch'] + 1

# 分箱：将年龄分为儿童/成人/老人
titanic['age_group'] = pd.cut(
    titanic['age'], 
    bins=[0, 18, 65, 100], 
    labels=['Child', 'Adult', 'Senior']
)

# 编码分类变量
titanic['sex_encoded'] = titanic['sex'].map({'male': 0, 'female': 1})

import matplotlib.pyplot as plt

# 设置中文字体（避免乱码）
plt.rcParams['font.sans-serif'] = ['SimHei']  # Windows
# plt.rcParams['font.family'] = 'Arial Unicode MS'  # macOS

plt.figure(figsize=(8, 5))
plt.hist(titanic['age'], bins=20, color='skyblue', edgecolor='black')
plt.title('乘客年龄分布')
plt.xlabel('年龄')
plt.ylabel('人数')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

import seaborn as sns

# 生存率 vs 性别
plt.figure(figsize=(6, 4))
sns.barplot(x='sex', y='survived', data=titanic)
plt.title('不同性别的生存率')
plt.ylabel('生存概率')
plt.show()

numeric_cols = titanic.select_dtypes(include=['number']).columns
corr_matrix = titanic[numeric_cols].corr()

plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0)
plt.title('数值特征相关性热力图')
plt.show()

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

df = sns.load_dataset('titanic')

# 基础清洗
df['age'].fillna(df['age'].median(), inplace=True)
df.drop(columns=['deck', 'embark_town'], inplace=True)
df.dropna(subset=['embarked'], inplace=True)

df['family_size'] = df['sibsp'] + df['parch'] + 1
df['is_alone'] = (df['family_size'] == 1).astype(int)

fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 1. 舱位等级 vs 生存率
sns.barplot(x='pclass', y='survived', data=df, ax=axes[0, 0])
axes[0, 0].set_title('舱位等级与生存率')

# 2. 是否独自旅行 vs 生存率
sns.barplot(x='is_alone', y='survived', data=df, ax=axes[0, 1])
axes[0, 1].set_title('独自旅行与生存率')
axes[0, 1].set_xticklabels(['否', '是'])

# 3. 年龄分布对比
df[df['survived'] == 1]['age'].hist(alpha=0.7, label='生存', ax=axes[1, 0])
df[df['survived'] == 0]['age'].hist(alpha=0.7, label='遇难', ax=axes[1, 0])
axes[1, 0].set_title('年龄分布对比')
axes[1, 0].legend()

# 4. 票价分布（对数尺度）
df.boxplot(column='fare', by='survived', ax=axes[1, 1])
axes[1, 1].set_yscale('log')
axes[1, 1].set_title('票价分布（对数尺度）')

plt.tight_layout()
plt.show()

Python 数据科学工具链入门：NumPy、Pandas、Matplotlib 实战指南

Python 数据科学工具链入门：NumPy、Pandas、Matplotlib 实战指南

一、环境搭建

二、NumPy：数值计算的基石

1. 创建数组

2. 属性与形状操作

更多推荐文章

相关免费在线工具

3. 向量化运算

三、Pandas：表格数据处理

1. 创建 DataFrame

2. 读取与探索数据

3. 筛选与索引

4. 缺失值处理

5. 特征工程初探

四、可视化：Matplotlib 与 Seaborn

1. 基础设置

2. 绘制直方图

3. Seaborn 统计绘图

4. 热力图：相关性分析

五、端到端实战：泰坦尼克号分析

步骤 1：加载与清洗

步骤 2：特征构建

步骤 3：可视化洞察

六、最佳实践与避坑

七、后续进阶方向

更多推荐文章

相关免费在线工具

Python 数据科学工具链入门：NumPy、Pandas、Matplotlib 实战指南

Python 数据科学工具链入门：NumPy、Pandas、Matplotlib 实战指南

一、环境搭建

二、NumPy：数值计算的基石

1. 创建数组

2. 属性与形状操作

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 向量化运算

三、Pandas：表格数据处理

1. 创建 DataFrame

2. 读取与探索数据

3. 筛选与索引

4. 缺失值处理

5. 特征工程初探

四、可视化：Matplotlib 与 Seaborn

1. 基础设置

2. 绘制直方图

3. Seaborn 统计绘图

4. 热力图：相关性分析

五、端到端实战：泰坦尼克号分析

步骤 1：加载与清洗

步骤 2：特征构建

步骤 3：可视化洞察

六、最佳实践与避坑

七、后续进阶方向

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具