使用 Python 构建机器学习预测模型全流程指南 | 极客日志

PythonAI算法

使用 Python 构建机器学习预测模型全流程指南

详细阐述了基于 Python 构建机器学习预测模型的全流程。内容涵盖数据加载与探索、可视化分析、特征与目标值分离、训练集与测试集划分、线性回归模型训练、预测结果展示及模型性能评估（R²与 MSE）。文章修正了原代码逻辑错误，补充了缺失值处理、过拟合分析及模型持久化保存等关键知识点，旨在帮助读者从零开始掌握机器学习的基础工作流与核心实践方法。

星河入梦发布于 2025/2/7更新于 2026/7/934 浏览

使用 Python 构建机器学习预测模型全流程指南

引言

机器学习是人工智能的核心领域之一，通过数据驱动的方式让计算机具备预测和决策能力。本文将详细介绍如何使用 Python 构建一个完整的机器学习工作流，涵盖数据加载、探索性分析、可视化、预处理、模型训练、预测及评估等关键步骤。我们将以线性回归为例，演示如何从原始数据到最终模型评估的全过程。

一、加载数据并初步探索

机器学习的第一步是加载数据并了解其基本结构。这有助于快速识别数据中的特征、潜在问题以及目标变量的分布情况。

1.1 导入必要的库

我们需要使用 Pandas 进行数据处理，Matplotlib 进行可视化，Scikit-learn 进行建模。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

1.2 读取数据

假设我们有一个包含直播带货数据的 CSV 文件，其中包含转发量、成交额等信息。

# 读取 CSV 文件
df_ads = pd.read_csv("直播带货.csv")

# 查看前几行内容，了解数据结构
df_ads.head(10)

# 查看数据基本信息，包括列名、非空值数量和数据类型
df_ads.info()

目的：

确认数据是否完整，检查是否有缺失值。
确定目标变量（如：成交额）和特征变量（如：转发量、点赞数等）。

二、数据可视化：直观理解数据关系

通过可视化手段，我们可以更清晰地观察特征与目标变量之间的关系，判断是否存在线性趋势或其他模式。

2.1 散点图分析

绘制转发量与成交额的散点图，观察两者相关性。

plt.figure(figsize=(8, 6))
plt.scatter(df_ads['转发量'], df_ads['成交额'], alpha=0.5, label='Data Points')
plt.xlabel('Shares (转发量)')
plt.ylabel('Sales Amount (成交额)')
plt.title('Correlation between Shares and Sales')
plt.legend()
plt.grid(True)
plt.show()

目的：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 移除目标列作为特征 X
X = df_ads.drop(['成交额'], axis=1)

# 定义目标变量 y
y = df_ads['成交额']

print(X.head())
print(y.head())

# 检查缺失值
print(X.isnull().sum())

# 如果有缺失值，可以选择删除或填充
# X = X.dropna() 
# 或者 X.fillna(X.mean(), inplace=True)

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print(f"训练集样本数：{X_train.shape[0]}")
print(f"测试集样本数：{X_test.shape[0]}")

model = LinearRegression()

model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 创建 DataFrame 方便查看对比
result_df = pd.DataFrame({
    '真实值': y_test,
    '预测值': y_pred
})
print(result_df.head())

# R² 分数：越接近 1 表示拟合效果越好
r2_score = model.score(X_test, y_test)
print(f"测试集 R² 分数：{r2_score:.4f}")

# 也可以查看训练集分数，若训练集远高于测试集，可能存在过拟合
train_r2 = model.score(X_train, y_train)
print(f"训练集 R² 分数：{train_r2:.4f}")

mse = np.mean((y_test - y_pred) ** 2)
print(f"均方误差 (MSE): {mse:.4f}")

plt.figure(figsize=(10, 6))
# 散点图展示真实值
plt.scatter(X_test, y_test, color='blue', alpha=0.6, label='True Value')
# 折线图展示预测值
plt.plot(X_test, y_pred, color='red', linewidth=2, label='Predicted Value')

plt.xlabel('Features')
plt.ylabel('Target Value')
plt.title('Actual vs Predicted Values')
plt.legend()
plt.grid(True)
plt.show()

import joblib
# 保存模型
joblib.dump(model, 'linear_regression_model.pkl')
# 加载模型
# loaded_model = joblib.load('linear_regression_model.pkl')

使用 Python 构建机器学习预测模型全流程指南

使用 Python 构建机器学习预测模型全流程指南

引言

一、加载数据并初步探索

1.1 导入必要的库

1.2 读取数据

二、数据可视化：直观理解数据关系

2.1 散点图分析

更多推荐文章

相关免费在线工具

三、数据清洗与预处理

3.1 分离特征和目标值

3.2 处理缺失值（可选）

四、划分训练集和测试集

五、构建模型并训练

5.1 初始化模型

5.2 训练模型

六、预测与结果展示

七、模型评估

7.1 计算评分

7.2 计算均方误差 (MSE)

八、可视化预测结果

九、总结与展望

9.1 核心要点回顾

9.2 下一步建议

更多推荐文章

相关免费在线工具

使用 Python 构建机器学习预测模型全流程指南

使用 Python 构建机器学习预测模型全流程指南

引言

一、加载数据并初步探索

1.1 导入必要的库

1.2 读取数据

二、数据可视化：直观理解数据关系

2.1 散点图分析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、数据清洗与预处理

3.1 分离特征和目标值

3.2 处理缺失值（可选）

四、划分训练集和测试集

五、构建模型并训练

5.1 初始化模型

5.2 训练模型

六、预测与结果展示

七、模型评估

7.1 计算评分

7.2 计算均方误差 (MSE)

八、可视化预测结果

九、总结与展望

9.1 核心要点回顾

9.2 下一步建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具