AI 开发实战：基于 MLflow 的实验跟踪指南 | 极客日志

PythonAI算法

AI 开发实战：基于 MLflow 的实验跟踪指南

MLflow 提供统一的实验跟踪与模型管理平台，帮助开发者记录参数、指标与模型版本。演示如何在 Python 项目中集成 MLflow，覆盖从基础回归到深度学习框架的完整流程。通过实际代码示例，展示如何自动化记录训练过程，解决实验复现难、对比混乱的问题，提升 AI 工程化效率。

RefactorPro发布于 2026/4/7更新于 2026/7/2032 浏览

AI 开发实战：基于 MLflow 的实验跟踪指南

在机器学习项目中，实验管理往往比模型本身更复杂。参数微调、版本迭代、结果对比，如果缺乏统一工具，很容易陷入混乱。MLflow 作为一个开源平台，能够很好地解决这些问题——它支持记录实验参数、指标、代码和模型，让每一次尝试都清晰可追溯。

环境准备与项目结构

首先确保安装好核心依赖。推荐使用虚拟环境隔离依赖，避免冲突。

conda create -n ai_env python=3.9
conda activate ai_env
pip install mlflow numpy pandas scikit-learn tensorflow torch matplotlib seaborn

一个标准的 AI 项目结构有助于规范化管理：

project/
├── data/          # 数据目录
├── notebooks/     # 探索性分析
├── src/           # 源代码
│   ├── models/    # 模型定义
│   └── utils/     # 工具函数
├── runs/          # MLflow 运行记录
└── requirements.txt

基础模型集成 MLflow

即使是简单的回归任务，也能通过 MLflow 实现自动化记录。下面是一个完整的示例，展示了如何在训练循环中实时记录损失值。

import mlflow
import numpy as np
from typing import List, Dict, Optional

class CoreAIModel:
    def __init__(self, learning_rate: float = 0.01, epochs: int = 100):
        self.learning_rate = learning_rate
        self.epochs = epochs
        self.weights = None
        self.bias = None

    def _initialize_parameters(self, n_features: int):
        np.random.seed(42)
        .weights = np.random.randn(n_features) * 
        .bias = 

     ():
        n_samples, n_features = X.shape
        ._initialize_parameters(n_features)

        
         mlflow.start_run():
            
            mlflow.log_param(, .learning_rate)
            mlflow.log_param(, .epochs)

             epoch  (.epochs):
                
                y_pred = np.dot(X, .weights) + .bias
                loss = np.mean((y - y_pred) ** )

                
                 (epoch + ) %  == :
                    mlflow.log_metric(, loss, step=epoch)
                    ()

            
            mlflow.sklearn.log_model(.model, )

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import tensorflow as tf
from tensorflow import keras
import mlflow

class TensorFlowModel:
    def __init__(self, input_dim: int, hidden_units: List[int] = [64, 32]):
        self.input_dim = input_dim
        self.hidden_units = hidden_units
        self.model = self._build_model()

    def _build_model(self):
        inputs = keras.Input(shape=(self.input_dim,))
        x = inputs
        for units in self.hidden_units:
            x = keras.layers.Dense(units, activation='relu')(x)
            x = keras.layers.Dropout(0.2)(x)
        outputs = keras.layers.Dense(1)(x)
        model = keras.Model(inputs=inputs, outputs=outputs)
        model.compile(optimizer='adam', loss='mse')
        return model

    def train_with_mlflow(self, X_train, y_train, epochs=50):
        with mlflow.start_run():
            mlflow.log_param("input_dim", self.input_dim)
            mlflow.log_param("hidden_units", str(self.hidden_units))

            history = self.model.fit(
                X_train, y_train,
                epochs=epochs,
                verbose=0,
                callbacks=[
                    keras.callbacks.LambdaCallback(
                        on_epoch_end=lambda epoch, logs: mlflow.log_metrics(logs)
                    )
                ]
            )

import torch
import torch.nn as nn
import mlflow

class PyTorchModel(nn.Module):
    def __init__(self, input_dim: int):
        super().__init__()
        self.network = nn.Sequential(
            nn.Linear(input_dim, 64),
            nn.ReLU(),
            nn.Linear(64, 1)
        )

    def train_step(self, X, y, optimizer, criterion):
        optimizer.zero_grad()
        outputs = self(X)
        loss = criterion(outputs, y)
        loss.backward()
        optimizer.step()
        return loss.item()

    def run_experiment(self, train_loader, epochs=50):
        with mlflow.start_run():
            mlflow.log_param("architecture", "Sequential")
            
            for epoch in range(epochs):
                total_loss = 0
                for X_batch, y_batch in train_loader:
                    loss = self.train_step(X_batch, y_batch, 
                                           torch.optim.Adam(self.parameters()), 
                                           nn.MSELoss())
                    total_loss += loss
                
                avg_loss = total_loss / len(train_loader)
                mlflow.log_metric("train_loss", avg_loss, step=epoch)

from sklearn.preprocessing import StandardScaler
from sklearn.metrics import r2_score
import mlflow

def evaluate_and_log(model, X_test, y_test):
    y_pred = model.predict(X_test)
    score = r2_score(y_test, y_pred)
    
    # 记录评估结果
    mlflow.log_metric("r2_score", score)
    mlflow.log_artifact("results.json")  # 保存详细报告
    
    return score

AI 开发实战：基于 MLflow 的实验跟踪指南

AI 开发实战：基于 MLflow 的实验跟踪指南

环境准备与项目结构

基础模型集成 MLflow

更多推荐文章

相关免费在线工具

深度学习框架实践

TensorFlow 示例

PyTorch 示例

数据处理与评估标准化

最佳实践总结

更多推荐文章

相关免费在线工具

AI 开发实战：基于 MLflow 的实验跟踪指南

AI 开发实战：基于 MLflow 的实验跟踪指南

环境准备与项目结构

基础模型集成 MLflow

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

深度学习框架实践

TensorFlow 示例

PyTorch 示例

数据处理与评估标准化

最佳实践总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具