Python 数据科学工具链入门：NumPy、Pandas、Matplotlib 快速上手 | 极客日志

PythonAI算法

Python 数据科学工具链入门：NumPy、Pandas、Matplotlib 快速上手

Python 数据科学工具链包含 NumPy、Pandas 和 Matplotlib。NumPy 提供高效数值计算和多维数组操作，支持向量化运算。Pandas 基于 DataFrame 结构处理表格数据，支持读取 CSV、缺失值填充及特征工程。Matplotlib 与 Seaborn 用于数据可视化，生成直方图、散点图和热力图。通过泰坦尼克号数据集示例，演示了从数据加载、清洗到探索性分析的全流程。掌握这些工具可构建机器学习项目的基础数据处理能力。

不知所云发布于 2026/3/21更新于 2026/7/530 浏览

Python 数据科学工具链入门：NumPy、Pandas、Matplotlib 快速上手

一、为什么工具链如此重要？

机器学习算法是'菜谱'，而 NumPy、Pandas、Matplotlib 构成了现代数据科学工作的基础设施。初学者若无法熟练使用工具读取和处理数据，将难以实现算法想法。本文旨在帮助读者在较短时间内掌握三大核心库的基础用法，完成数据加载、清洗、探索和可视化的完整流程。

二、环境准备

推荐方式：使用 Anaconda

访问官网下载对应操作系统安装包。
安装时勾选 "Add to PATH"（Windows 用户注意）。
打开终端输入 python --version 验证 Python 3.9+。
启动 Jupyter Notebook：jupyter notebook。

Anaconda 自带 Python、NumPy、Pandas、Matplotlib 等库，避免依赖冲突。

替代方案：pip 安装

pip install numpy pandas matplotlib seaborn jupyter

三、NumPy：高效数值计算的基石

Python 原生 list 在科学计算中存在速度慢、不支持向量化运算的问题。NumPy 提供了 ndarray 对象、广播机制及 C 语言底层实现，速度比纯 Python 快 10–100 倍。几乎所有数据科学库都基于 NumPy 构建。

1. 创建数组

import numpy as np
arr = np.array([1, 2, 3, 4])
print(arr)
zeros = np.zeros(5)
one = np.ones((2, 3))
linspace = np.linspace(0, 10, 5)
rand = np.random.rand(3, 2)

2. 数组属性与形状操作

arr = np.array([[1, 2, 3], [4, 5, 6]])
print("形状:", arr.shape)
print("维度:", arr.ndim)
reshaped = arr.reshape(3, 2)
flat = arr.flatten()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
print(a + b)
print(np.sin(a))
print(a[a > 1])

arr = np.array([1, 2, 3, 4, 5])
print("均值:", np.mean(arr))
print("标准差:", np.std(arr))
print("最大值:", np.max(arr))

import pandas as pd
data = {'name': ['Alice', 'Bob'], 'age': [25, 30]}
df = pd.DataFrame(data)
print(df)

import seaborn as sns
titanic = sns.load_dataset('titanic')
print(titanic.head())
print(titanic.info())

print(titanic.shape)
print(titanic.describe())
print(titanic.isnull().sum())

subset = titanic[['name', 'age']]
survived_females = titanic[(titanic['survived'] == 1) & (titanic['sex'] == 'female')]
first_three = titanic.iloc[:3, :5]

titanic['age'].fillna(titanic['age'].mean(), inplace=True)
mode_embarked = titanic['embarked'].mode()[0]
titanic['embarked'].fillna(mode_embarked, inplace=True)

titanic['family_size'] = titanic['sibsp'] + titanic['parch'] + 1
titanic['age_group'] = pd.cut(titanic['age'], bins=[0, 18, 65, 100], labels=['Child', 'Adult', 'Senior'])
titanic['sex_encoded'] = titanic['sex'].map({'male': 0, 'female': 1})

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.hist(titanic['age'], bins=20, color='skyblue')
plt.title('乘客年龄分布')
plt.show()

import seaborn as sns
sns.barplot(x='sex', y='survived', data=titanic)
plt.title('不同性别的生存率')
plt.show()

sns.scatterplot(x='age', y='fare', hue='survived', data=titanic)
corr_matrix = titanic.select_dtypes(include=['number']).corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')

df = sns.load_dataset('titanic')
df['age'].fillna(df['age'].median(), inplace=True)
df.drop(columns=['deck', 'embark_town'], inplace=True)

df['family_size'] = df['sibsp'] + df['parch'] + 1
df['is_alone'] = (df['family_size'] == 1).astype(int)

fig, axes = plt.subplots(2, 2, figsize=(14, 10))
sns.barplot(x='pclass', y='survived', data=df, ax=axes[0, 0])
sns.barplot(x='is_alone', y='survived', data=df, ax=axes[0, 1])
df[df['survived'] == 1]['age'].hist(alpha=0.7, label='生存', ax=axes[1, 0])
df.boxplot(column='fare', by='survived', ax=axes[1, 1])
plt.tight_layout()
plt.show()

Python 数据科学工具链入门：NumPy、Pandas、Matplotlib 快速上手

Python 数据科学工具链入门：NumPy、Pandas、Matplotlib 快速上手

一、为什么工具链如此重要？

二、环境准备

推荐方式：使用 Anaconda

替代方案：pip 安装

三、NumPy：高效数值计算的基石

1. 创建数组

2. 数组属性与形状操作

更多推荐文章

相关免费在线工具

3. 向量化运算

4. 常用数学函数

四、Pandas：让数据处理像 Excel 一样直观

1. 创建 DataFrame

2. 读取真实数据

3. 基础探索

4. 数据筛选与索引

5. 处理缺失值

6. 特征工程初探

五、Matplotlib 与 Seaborn：用图表讲好数据故事

1. Matplotlib 基础绘图

2. Seaborn 统计可视化

3. 散点图与热力图

六、端到端实战：从原始数据到洞察

步骤 1：加载与清洗

步骤 2：创建新特征

步骤 3：可视化关键发现

关键洞察

七、常见陷阱与最佳实践

八、总结

更多推荐文章

相关免费在线工具

Python 数据科学工具链入门：NumPy、Pandas、Matplotlib 快速上手

Python 数据科学工具链入门：NumPy、Pandas、Matplotlib 快速上手

一、为什么工具链如此重要？

二、环境准备

推荐方式：使用 Anaconda

替代方案：pip 安装

三、NumPy：高效数值计算的基石

1. 创建数组

2. 数组属性与形状操作

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 向量化运算

4. 常用数学函数

四、Pandas：让数据处理像 Excel 一样直观

1. 创建 DataFrame

2. 读取真实数据

3. 基础探索

4. 数据筛选与索引

5. 处理缺失值

6. 特征工程初探

五、Matplotlib 与 Seaborn：用图表讲好数据故事

1. Matplotlib 基础绘图

2. Seaborn 统计可视化

3. 散点图与热力图

六、端到端实战：从原始数据到洞察

步骤 1：加载与清洗

步骤 2：创建新特征

步骤 3：可视化关键发现

关键洞察

七、常见陷阱与最佳实践

八、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具