从零开始：如何使用 Python 训练 AI 模型 | 极客日志

PythonAI算法

从零开始：如何使用 Python 训练 AI 模型

介绍从零开始使用 Python 训练 AI 模型的完整流程。内容包括 AI 基本概念、开发环境搭建（Python、库安装）、数据获取与预处理（加州房价数据集）、线性回归模型训练、深度学习神经网络构建（TensorFlow）、模型优化（正则化、早停法）以及模型部署（Flask API、Streamlit）。通过实战代码示例，帮助读者掌握机器学习核心技能及大模型基础应用。

CryptoLab发布于 2026/4/6更新于 2026/5/2527 浏览

引言

人工智能（AI）——一个熟悉又神秘的词汇。我们常听说它可以生成诗歌、编写代码、创作艺术，甚至回答各种问题。然而，当你想亲手实现一个'AI 模型'时，却可能感到无从下手。这篇教程正是为你准备的，将带你从零开始，逐步掌握从'AI 新手'到'能够搭建 AI 模型'的核心技能。

一、AI 的基本概念

1.什么是 AI 模型？

AI 模型是通过训练得到的一种程序，能够利用海量数据学习规律，并在此基础上完成各种任务。它的工作原理就像教一个孩子认水果：通过反复观察图片，孩子学会了'香蕉是黄色的''苹果是圆的'，从而即使面对未见过的水果图片，也能做出正确判断。

AI 模型：学生数据：课本 模型训练：学生做练习题 模型评估：学生考试

2.模型如何学习？

模型学习的核心步骤如下：

喂数据：提供大量样本，让模型了解世界的'规律'。
定义目标：明确任务，例如判断图片中是狗还是猫。
反复训练：模型不断调整其'参数'（类似脑回路），以优化对数据的理解。
测试与应用：在实际场景中运行模型，评估其效果。

3.AI 模型的类型

根据任务的性质，AI 模型主要分为以下几类：

分类模型：识别类别，例如垃圾邮件分类。
回归模型：预测数值，例如房价预测。
生成模型：创造内容，例如生成图像或文本。

4.什么是'大模型'？

'大模型'是相对于传统 AI 模型而言的，指的是参数规模大、学习能力强的模型。它们拥有强大的数据处理和推理能力，能够应对复杂任务。例如，GPT 系列模型不仅可以完成写作任务，还能实现编程、回答问题等多种功能，表现得更加'聪明'。

二、开发环境准备

在开始训练模型前，我们需要搭建一个'工作环境'，就像进入厨房前需要准备好工具一样。以下是必备的'厨具'：

1.安装 Python

Python 是 AI 开发的首选语言，因其简单易用的特点深受开发者喜爱。前往 Python 官网下载最新版本并安装。安装时务必勾选 'Add Python to PATH' ，确保后续工具可以正常运行。

2.安装开发工具

推荐以下两款工具，便于你编写和调试代码：

Jupyter Notebook：一个交互式环境，适合初学者边调试边学习 AI 代码。
VS Code：功能强大的代码编辑器，支持插件扩展，适合处理更复杂的项目。

3.安装必要的 Python 库

在终端运行以下命令，安装 AI 开发常用的库：

pip install numpy pandas matplotlib seaborn scikit-learn tensorflow

这些库的用途： NumPy：用于高效的数学计算和数组操作。 Pandas：强大的数据处理与分析工具。 Matplotlib/Seaborn：用于数据可视化，展示数据分布和关系。 Scikit-learn：经典的机器学习库，支持分类、回归和聚类等任务。 TensorFlow：深度学习框架，用于构建和训练神经网络。

三、数据是 AI 的'粮食'

1.数据集来源

在 AI 项目中，数据是模型的基础，就像粮食之于人类。没有数据，模型就无法'成长'。下面是常见的数据来源：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from sklearn.datasets import fetch_california_housing 
import pandas as pd 

# 加载 California Housing 数据集
housing = fetch_california_housing()
data = pd.DataFrame(housing.data, columns=housing.feature_names)
data['PRICE'] = housing.target 

# 查看数据
print(data.head())

# 查看数据统计信息
print(data.describe())

import matplotlib.pyplot as plt 
import seaborn as sns 

# 绘制房价分布图
sns.histplot(data['PRICE'], kde=True, bins=20)
plt.title("Price Distribution") # 房价分布
plt.xlabel("Price") # 房价
plt.ylabel("Frequency") # 频数
plt.show()

# 绘制特征相关性热力图
plt.figure(figsize=(10, 8))
sns.heatmap(data.corr(), annot=True, cmap='coolwarm')
plt.title("Feature Correlation Heatmap") # 特征相关性热力图
plt.show()

# 检查缺失值
print(data.isnull().sum())

from sklearn.preprocessing import StandardScaler 

# 特征标准化
scaler = StandardScaler()
features = data.drop('PRICE', axis=1)
target = data['PRICE']
features_scaled = scaler.fit_transform(features)

from sklearn.model_selection import train_test_split 

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(features_scaled, target, test_size=0.2, random_state=42)

from sklearn.linear_model import LinearRegression 
from sklearn.metrics import mean_squared_error, r2_score 

# 初始化模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估性能
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"均方误差（MSE）：{mse}")
print(f"R2 分数：{r2}")

import tensorflow as tf 
from tensorflow.keras.models import Sequential 
from tensorflow.keras.layers import Dense, Input 

# 定义模型
nn_model = Sequential([
    Input(shape=(X_train.shape[1],)), # 显式定义输入层
    Dense(64, activation='relu'), # 第一层隐藏层
    Dense(32, activation='relu'), # 第二层隐藏层
    Dense(1) # 输出层，预测房价
]) 

# 编译模型
nn_model.compile(optimizer='adam', loss='mse', metrics=['mae']) 

# 打印模型结构
nn_model.summary()

# 开始训练
history = nn_model.fit(
    X_train, y_train,
    epochs=100, # 训练 100 轮
    batch_size=32, # 每次使用 32 条数据
    validation_split=0.2, # 20% 数据用于验证
    verbose=1 # 显示训练进度
)

# 模型评估
test_loss, test_mae = nn_model.evaluate(X_test, y_test)
print(f"测试集均方误差（MSE）：{test_loss}")
print(f"测试集平均绝对误差（MAE）：{test_mae}")

# 用测试集数据预测
predictions = nn_model.predict(X_test)

# 显示部分预测结果
for i in range(5):
    print(f"预测值：{predictions[i][0]:.2f}, 实际值：{y_test.iloc[i]:.2f}")

预测值：0.11, 实际值：0.48
预测值：0.02, 实际值：0.46
预测值：0.12, 实际值：5.00
预测值：0.18, 实际值：2.19
预测值：0.01, 实际值：2.78

import matplotlib.pyplot as plt 

# 绘制训练和验证损失
plt.plot(history.history['loss'], label='Training Loss') # 训练损失
plt.plot(history.history['val_loss'], label='Validation Loss') # 验证损失
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.title('Loss Changes During Training') # 训练过程中的损失变化
plt.show()

from tensorflow.keras.models import Sequential 
from tensorflow.keras.layers import Dense, Dropout, Input 

nn_model = Sequential([
    Input(shape=(X_train.shape[1],)), # 显式定义输入形状
    Dense(64, activation='relu'),
    Dropout(0.5), # 随机丢弃 50% 的神经元
    Dense(32, activation='relu'),
    Dense(1) # 输出层
])

from tensorflow.keras.optimizers import Adam 

# 使用较小的学习率
nn_model.compile(optimizer=Adam(learning_rate=0.001), loss='mse', metrics=['mae'])

nn_model = Sequential([
    Input(shape=(X_train.shape[1],)), # 明确定义输入形状
    Dense(128, activation='relu'), # 第一隐藏层
    Dense(64, activation='relu'), # 第二隐藏层
    Dense(32, activation='relu'), # 第三隐藏层
    Dense(1) # 输出层
])

# 构建更深的神经网络
nn_model = Sequential([
    Input(shape=(X_train.shape[1],)), # 使用 Input 层显式定义输入形状
    Dense(256, activation='relu'), # 第一隐藏层，256 个神经元
    Dense(128, activation='relu'), # 第二隐藏层
    Dense(64, activation='relu'), # 第三隐藏层
    Dense(1) # 输出层
]) 

# 编译模型
nn_model.compile(optimizer=Adam(learning_rate=0.0001), loss='mse', metrics=['mae']) 

# 训练模型
history = nn_model.fit(
    X_train, y_train,
    epochs=200, # 增加训练轮数
    batch_size=64, # 调整批量大小
    validation_split=0.2, # 20% 数据用于验证
    verbose=1 # 显示训练过程
)

from tensorflow.keras.callbacks import EarlyStopping 

# 添加早停法
early_stop = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)

history = nn_model.fit(
    X_train, y_train,
    epochs=200,
    batch_size=64,
    validation_split=0.2,
    callbacks=[early_stop] # 应用早停
)

from tensorflow.keras.preprocessing.image import ImageDataGenerator 

# 定义数据增强器
datagen = ImageDataGenerator(
    rotation_range=20, # 随机旋转角度
    width_shift_range=0.1, # 水平平移
    height_shift_range=0.1, # 垂直平移
    horizontal_flip=True # 水平翻转
) 

# 对训练数据应用数据增强
datagen.fit(X_train)

# 添加随机噪声
def add_noise(data, noise_level=0.1):
    noise = noise_level * np.random.normal(size=data.shape)
    return data + noise 

# 应用噪声增强
X_train_augmented = add_noise(X_train)

import tensorflow as tf 
print("GPU 是否可用：", tf.config.list_physical_devices('GPU'))

# 保存模型
nn_model.save('my_ai_model') 

# 加载模型
from tensorflow.keras.models import load_model 
loaded_model = load_model('my_ai_model')

from flask import Flask, request, jsonify 
import numpy as np 
from tensorflow.keras.models import load_model 

# 加载模型
model = load_model('my_ai_model') 

app = Flask(__name__) 

@app.route('/predict', methods=['POST'])
def predict():
    data = request.json
    features = np.array(data['features']).reshape(1, -1)
    prediction = model.predict(features)
    # 返回预测结果
    return jsonify({
        'success': True,
        'prediction': float(prediction[0][0]) # 将预测值转换为浮点数返回
    }) 

if __name__ == '__main__':
    app.run(debug=True)

POST /predict
{
 "features": [0.1, -0.2, 0.5, 0.3, 0.7, -1.1, 0.4, 0.9, 1.0, -0.5, 0.8, -0.6, 0.3]
}

{
 "success": true,
 "prediction": 24.56
}

import streamlit as st 
import numpy as np 
from tensorflow.keras.models import load_model 

# 加载模型
model = load_model('my_ai_model') 

# 设置标题
st.title("House Price Prediction") # 房价预测模型

# 输入特征值
features = []
for i in range(13):
    features.append(st.number_input(f"Feature {i+1}"))

if st.button("Predict"):
    # 使用模型进行预测
    prediction = model.predict(np.array(features).reshape(1, -1))
    st.write(f"Predicted Price：{float(prediction[0][0]):,.2f}")

streamlit run app.py

从零开始：如何使用 Python 训练 AI 模型

引言

一、AI 的基本概念

1.什么是 AI 模型？

2.模型如何学习？

3.AI 模型的类型

4.什么是'大模型'？

二、开发环境准备

1.安装 Python

2.安装开发工具

3.安装必要的 Python 库

三、数据是 AI 的'粮食'

1.数据集来源

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.数据探索与可视化

3.数据清洗与预处理

四、训练一个简单模型

1.划分训练集和测试集

2.训练线性回归模型

3.模型效果解读

五、深度学习初探

1.什么是深度学习？

2.构建一个简单神经网络

3.测试模型性能

4.可视化训练过程

六、模型优化

1.什么是过拟合和欠拟合？

2.添加正则化

3.调整学习率

七、构建一个'简易大模型'

1.增加网络深度

2.使用更多数据

3.增加模型参数与层数

4.监控训练过程

5.数据增强与扩展

6.模型训练性能加速：使用 GPU/TPU

八、模型部署

1.保存与加载模型

2.使用 Flask 构建 API 服务

3.使用 Streamlit 构建可视化界面

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具