Python 数据分析实战：Numpy 与 Pandas 核心应用详解 | 极客日志

PythonAI算法

Python 数据分析实战：Numpy 与 Pandas 核心应用详解

Python 数据分析中 Numpy 与 Pandas 库的核心用法。内容涵盖环境配置、Numpy 数组创建与向量化运算、Pandas 的 Series 与 DataFrame 数据结构、数据清洗流程（包括缺失值处理、类型转换、日期解析及异常值过滤）以及关键指标计算示例。文章通过医院销售数据的实际案例，演示了从数据读取到 KPI 分析的全流程，并补充了常见性能优化技巧与最佳实践，旨在帮助读者建立完整的数据分析工作流。

w795471发布于 2025/2/6更新于 2026/7/2449 浏览

Python 数据分析基础：Numpy 与 Pandas

在 Python 数据科学生态中，Numpy（Numerical Python）和 Pandas 是最核心的两个库。Numpy 专注于高效的数值计算和矩阵运算，其底层基于 C 语言实现，性能远高于原生列表；Pandas 则构建在 Numpy 之上，提供了更高级的数据结构（如 Series 和 DataFrame），专门用于处理结构化数据和进行复杂的数据分析任务。

一、环境准备与导入

使用前需确保已安装相关库。若未安装，可通过 pip 命令安装：

pip install numpy pandas openpyxl

在代码中，通常使用以下约定导入：

import numpy as np
import pandas as pd

二、Numpy 核心功能

1. 数组创建与属性

Numpy 的核心对象是 ndarray（多维数组）。创建数组常用 array 函数，内部元素类型必须一致。

import numpy as np

# 创建一维数组
arr1d = np.array([1, 2, 3, 4])

# 创建二维数组（矩阵）
arr2d = np.array([[1, 2], [3, 4]])

# 查看数组属性
print(f"维度：{arr2d.ndim}")      # 输出 2
print(f"形状：{arr2d.shape}")    # 输出 (2, 2)
print(f"数据类型：{arr2d.dtype}") # 输出 int64

2. 索引与切片

Numpy 支持类似列表的切片操作，但效率更高。注意索引从 0 开始。

# 获取第一行第二列的元素
val = arr2d[0, 1]

# 切片操作
sub_arr = arr2d[:1, :] # 获取第一行所有列

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# 直接加减乘除
print(a + b)   # [5 7 9]
print(a * 2)   # [2 4 6]

s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print(s['a']) # 输出 10

data = {
    '姓名': ['张三', '李四'],
    '年龄': [25, 30],
    '城市': ['北京', '上海']
}
df = pd.DataFrame(data)

# 读取 Excel 文件
file_path = 'data/sales_data.xlsx'
df = pd.read_excel(file_path, sheet_name='Sheet1', dtype=str)

# 重命名列
df.rename(columns={'购药时间': '销售时间'}, inplace=True)

# 类型转换
df['销售数量'] = pd.to_numeric(df['销售数量'], errors='coerce')
df['应收金额'] = pd.to_numeric(df['应收金额'], errors='coerce')

# 删除销售时间或社保卡号缺失的行
df = df.dropna(subset=['销售时间', '社保卡号'], how='any')

# 或者填充默认值
df['实收金额'].fillna(0, inplace=True)

# 提取日期部分并转换格式
def extract_date(time_str):
    if pd.isna(time_str):
        return None
    return time_str.split(' ')[0]

df['销售时间'] = df['销售时间'].apply(extract_date)
df['销售时间'] = pd.to_datetime(df['销售时间'], format='%Y-%m-%d', errors='coerce')

# 再次检查日期缺失情况
df = df.dropna(subset=['销售时间'])

# 保留销售数量大于 0 的记录
df = df[df['销售数量'] > 0]

# 去除重复记录
kpi_df = df.drop_duplicates(subset=['销售时间', '社保卡号'])
total_orders = kpi_df.shape[0]
print(f'总消费次数：{total_orders}')

total_revenue = df['实收金额'].sum()
start_time = kpi_df['销售时间'].min()
end_time = kpi_df['销售时间'].max()
days_span = (end_time - start_time).days
months_span = max(days_span // 30, 1) # 避免除以零

monthly_avg_orders = total_orders / months_span
monthly_avg_revenue = total_revenue / months_span
unit_price = total_revenue / total_orders

print(f'月份跨度：{months_span}个月')
print(f'月均消费次数：{monthly_avg_orders:.2f}')
print(f'月均消费金额：{monthly_avg_revenue:.2f}')
print(f'客单价：{unit_price:.2f}')

# 添加月份列
df['月份'] = df['销售时间'].dt.strftime('%Y-%m')

# 按月统计销售额
monthly_sales = df.groupby('月份')['实收金额'].sum().reset_index()
print(monthly_sales.head())

# 保存清洗后的数据
df.to_excel('cleaned_sales_data.xlsx', index=False)

Python 数据分析实战：Numpy 与 Pandas 核心应用详解

Python 数据分析基础：Numpy 与 Pandas

一、环境准备与导入

二、Numpy 核心功能

1. 数组创建与属性

2. 索引与切片

更多推荐文章

相关免费在线工具

3. 向量化运算

三、Pandas 数据结构详解

1. Series（一维带标签数组）

2. DataFrame（表格型数据结构）

四、数据清洗实战

1. 读取数据

2. 重命名与类型转换

3. 处理缺失值

4. 日期处理

5. 异常值处理

五、数据分析与指标计算

1. 去重与计数

2. 金额统计

3. 分组聚合分析

六、常见问题与最佳实践

更多推荐文章

相关免费在线工具

Python 数据分析实战：Numpy 与 Pandas 核心应用详解

Python 数据分析基础：Numpy 与 Pandas

一、环境准备与导入

二、Numpy 核心功能

1. 数组创建与属性

2. 索引与切片

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 向量化运算

三、Pandas 数据结构详解

1. Series（一维带标签数组）

2. DataFrame（表格型数据结构）

四、数据清洗实战

1. 读取数据

2. 重命名与类型转换

3. 处理缺失值

4. 日期处理

5. 异常值处理

五、数据分析与指标计算

1. 去重与计数

2. 金额统计

3. 分组聚合分析

六、常见问题与最佳实践

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具