C++ 多项式曲线拟合实战：从理论到工程落地 | 极客日志

C++算法

C++ 多项式曲线拟合实战：从理论到工程落地

多项式曲线拟合是数据分析中的关键统计方法，旨在通过构建数学模型来逼近给定数据点。本文基于 C++ 结合 Eigen 库，深入讲解二维平面上的多项式拟合实现。核心采用最小二乘法优化系数，涵盖范德蒙矩阵构建、正规方程推导、数值稳定性处理（如归一化、SVD 分解）、异常值剔除及模型诊断等工程实践。文章强调偏差 - 方差权衡与过拟合风险，提供从理论到代码落地的完整路径，适用于趋势预测与建模分析场景。

赛博朋克发布于 2026/3/22更新于 2026/6/735 浏览

C++ 多项式曲线拟合实战：从理论到工程落地

引言

你有没有遇到过这样的场景？传感器采集了一堆数据点，杂乱无章地散落在坐标系里。老板拍着桌子问：'这背后到底是什么规律？'——而你盯着屏幕，脑子里只有一个念头：得找个函数把这些点串起来。

这，就是曲线拟合的起点。

在真实世界中，我们几乎永远无法获得完美的函数表达式。物理实验、金融走势、机器学习特征……一切依赖数据驱动的领域，都建立在一个共同前提上：用一个简洁的数学模型去逼近复杂的现实。 而多项式拟合，正是这个过程最基础也最关键的工具之一。

但问题来了：怎么选阶数？为什么最小二乘法总是在平方误差上做文章？直接求解正规方程会不会翻车？今天，我们就来一次'开箱即用'的深度拆解，把从原始数据到最终模型的每一步，都掰开了揉碎了讲清楚。

准备好了吗？咱们不走寻常路，也不念教科书——这次是工程师之间的对话 🛠️。

多项式建模：不只是个公式，而是对自由度的掌控

先别急着写代码。让我们回到那个最朴素的问题：为什么要用多项式？

答案其实很反直觉：因为它'看起来非线性'，但'算起来却是线性的'。

听上去像绕口令？举个例子你就懂了。

假设我们要拟合的数据满足这样一个关系：

$$ f(x) = a_0 + a_1 x + a_2 x^2 + \cdots + a_n x^n $$

这个函数整体上看当然是非线性的——毕竟有 $x^2$、$x^3$ 甚至更高次幂。可注意！它对参数 $\mathbf{a} = [a_0, a_1, …, a_n]^T$ 的依赖却是完全线性的。也就是说，无论 $x$ 怎么变，只要我把所有 $x^k$ 看作已知量，那整个问题就变成了：

'找一组系数 $a_k$，让它们和对应的 $x^k$ 相乘后加起来，尽量接近观测值。'

是不是突然觉得轻松多了？

这种'形非线，实为线'的特性，是多项式能在科学计算中屹立不倒的根本原因。魏尔斯特拉斯逼近定理告诉我们：任何连续函数都可以被多项式以任意精度逼近。换句话说，只要你愿意提高阶数，就能无限贴近真实规律（当然，代价可能是灾难性的过拟合 😬）。

范德蒙矩阵：把离散数据变成代数语言

现在我们有一组数据 $(x_i, y_i)$，共 $m$ 个点。要把上面那个理想化的公式落地成可计算的形式，第一步就是构造所谓的范德蒙矩阵（Vandermonde Matrix）。

它的结构长这样：

$$ \mathbf{X} = \begin{bmatrix} 1 & x_1 & x_1^2 & \cdots & x_1^n \ 1 & x_2 & x_2^2 & \cdots & x_2^n \ \vdots & \vdots & \vdots & \ddots & \vdots \ 1 & x_m & x_m^2 & \cdots & x_m^n \end{bmatrix} $$

每一行对应一个数据点，每一列代表一个幂次项。这个矩阵一旦建成，原始数据就完成了从'物理测量'到'数学对象'的跃迁。后续所有的运算都将在这个框架下进行。

来看一段 C++ 实现：

std::vector<std::vector<double>> buildVandermonde(const std::vector<double>& x, int degree) {
    int m = x.size();
    int n = degree + 1;
    std::vector<std::vector<double>> X(m, std::vector<double>(n));
    for (int i = ; i < m; ++i) {
         ( j = ; j < n; ++j) {
            X[i][j] = std::(x[i], j);
        }
    }
     X;
}

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online

graph TD
    A[原始数据点 xi, yi] --> B{是否需要预处理？}
    B -->|是 | C[归一化/去噪]
    B -->|否 | D[直接构造矩阵]
    C --> D
    D --> E[初始化空矩阵 X]
    E --> F[遍历每个 xi]
    F --> G[计算 1, xi, xi², ..., xin]
    G --> H[填入矩阵第 i 行]
    H --> I{是否所有点处理完毕？}
    I -->|否 | F
    I -->|是 | J[输出范德蒙矩阵 X]

模型类型	偏差	方差	表现
低阶（如线性）	高	低	欠拟合，错过趋势
中阶（如 3~6 次）	适中	适中	最佳平衡区
高阶（>8 次）	低	高	过拟合，记住噪声

import numpy as np
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

np.random.seed(42)
x = np.linspace(0, 3, 30)
y_true = 2 * x**2 - 3 * x + 1
y_noisy = y_true + np.random.normal(0, 0.5, size=x.shape)

train_errors = []
val_errors = []
degrees = range(1, 10)

for d in degrees:
    poly = PolynomialFeatures(degree=d)
    X_poly = poly.fit_transform(x.reshape(-1, 1))
    idx_train = np.random.choice(len(x), size=20, replace=False)
    idx_val = np.setdiff1d(np.arange(len(x)), idx_train)
    reg = LinearRegression().fit(X_poly[idx_train], y_noisy[idx_train])
    y_train_pred = reg.predict(X_poly[idx_train])
    y_val_pred = reg.predict(X_poly[idx_val])
    train_errors.append(mean_squared_error(y_noisy[idx_train], y_train_pred))
    val_errors.append(mean_squared_error(y_noisy[idx_val], y_val_pred))
# 绘图观察 U 型曲线

符号	名称	维度	构造方式
$\mathbf{X}$	设计矩阵	$m \times (n+1)$	范德蒙结构
$\mathbf{X}^T \mathbf{X}$	Gram 矩阵	$(n+1) \times (n+1)$	内积形成的对称正定矩阵
$\mathbf{X}^T \mathbf{Y}$	观测投影向量	$(n+1) \times 1$	数据与基函数的交叉内积
$(\mathbf{X}^T \mathbf{X})^{-1}$	协方差矩阵缩放因子	$(n+1) \times (n+1)$	决定参数估计精度

#include <Eigen/Dense>

Eigen::VectorXd solve_normal_equation(const Eigen::MatrixXd& X, const Eigen::VectorXd& Y) {
    Eigen::MatrixXd XtX = X.transpose() * X;
    Eigen::VectorXd XtY = X.transpose() * Y;
    return XtX.ldlt().solve(XtY); // 使用 LDLT 分解提升稳定性
}

graph LR
    P[最小二乘问题] --> Q{X 是否列满秩？}
    Q -->|是 | R[XtX 正定 → 凸函数]
    Q -->|否 | S[存在无穷多解或无解]
    R --> T[梯度为零 ⇒ 唯一最优解]
    S --> U[需引入正则化或 SVD]

bool read_csv(const std::string& filename, std::vector<double>& x_vec, std::vector<double>& y_vec) {
    std::ifstream file(filename);
    if (!file.is_open()) {
        throw std::runtime_error("Cannot open file: " + filename);
    }
    std::string line;
    int line_num = 0;
    while (std::getline(file, line)) {
        ++line_num;
        std::istringstream ss(line);
        std::string cell_x, cell_y;
        if (!std::getline(ss, cell_x, ',')) continue;
        if (!std::getline(ss, cell_y, ',')) {
            throw std::invalid_argument("Incomplete data at line " + std::to_string(line_num));
        }
        try {
            double x = std::stod(cell_x);
            double y = std::stod(cell_y);
            x_vec.push_back(x);
            y_vec.push_back(y);
        } catch (...) {
            throw std::invalid_argument("Invalid number format at line " + std::to_string(line_num));
        }
    }
    if (x_vec.empty()) {
        throw std::length_error("No valid data found in file.");
    }
    return true;
}

void remove_outliers_iqr(std::vector<double>& x_data, std::vector<double>& y_data) {
    if (y_data.size() < 4) return;
    std::vector<double> y_sorted = y_data;
    std::sort(y_sorted.begin(), y_sorted.end());
    double Q1 = percentile(y_sorted, 0.25);
    double Q3 = percentile(y_sorted, 0.75);
    double IQR = Q3 - Q1;
    double lower_bound = Q1 - 1.5 * IQR;
    double upper_bound = Q3 + 1.5 * IQR;
    std::vector<double> new_x, new_y;
    for (size_t i = 0; i < y_data.size(); ++i) {
        if (y_data[i] >= lower_bound && y_data[i] <= upper_bound) {
            new_x.push_back(x_data[i]);
            new_y.push_back(y_data[i]);
        }
    }
    x_data = std::move(new_x);
    y_data = std::move(new_y);
}

void normalize_data(std::vector<double>& x_data) {
    double sum = 0.0;
    for (double x : x_data) sum += x;
    double mean = sum / x_data.size();
    double var_sum = 0.0;
    for (double x : x_data) var_sum += (x - mean) * (x - mean);
    double stddev = std::sqrt(var_sum / x_data.size());
    if (stddev == 0.0) stddev = 1.0;
    for (double& x : x_data) {
        x = (x - mean) / stddev;
    }
}

Vector gaussian_elimination(Matrix A, Vector b) {
    int n = A.size();
    for (int i = 0; i < n; ++i) A[i].push_back(b[i]);
    for (int k = 0; k < n; ++k) {
        int max_row = k;
        for (int i = k + 1; i < n; ++i)
            if (abs(A[i][k]) > abs(A[max_row][k])) max_row = i;
        swap(A[k], A[max_row]);
        for (int i = k + 1; i < n; ++i) {
            double factor = A[i][k] / A[k][k];
            for (int j = k; j <= n; ++j) A[i][j] -= factor * A[k][j];
        }
    }
    Vector x(n);
    for (int i = n - 1; i >= 0; --i) {
        x[i] = A[i][n];
        for (int j = i + 1; j < n; ++j) x[i] -= A[i][j] * x[j];
        x[i] /= A[i][i];
    }
    return x;
}

Eigen::JacobiSVD<Eigen::MatrixXd> svd(V, Eigen::ComputeThinU | Eigen::ComputeThinV);
return svd.solve(y);

flowchart TD
    Start[开始求解] --> IsStable{矩阵是否良态？}
    IsStable -- 是 --> UseQR[使用 QR 分解]
    IsStable -- 否 --> UseSVD[使用 SVD 分解]
    UseQR --> Result1[快速获得近似解]
    UseSVD --> Result2[获得最稳健解]
    Result1 --> End
    Result2 --> End

class CurveFitter {
private:
    std::vector<double> x, y;
    Eigen::VectorXd coefficients;
    int degree;
public:
    CurveFitter(const std::vector<double>& x_data, const std::vector<double>& y_data, int deg)
        : x(x_data), y(y_data), degree(deg) {}
    void build_vandermonde_matrix(Eigen::MatrixXd& V);
    bool solve_normal_equations();
    double evaluate(double x_val) const;
    double compute_rmse() const;
    double compute_r_squared() const;
    void save_results(const std::string& output_path) const;
};

while ((opt = getopt(argc, argv, "i:d:o:h")) != -1) {
    switch (opt) {
        case 'i': input_file = optarg; break;
        case 'd': degree = atoi(optarg); break;
        case 'o': output_file = optarg; break;
        case 'h': cout << "Usage: " << argv[0] << " -i data.txt -d 3 -o result.csv" << endl; return 0;
    }
}

set title "Polynomial Fit (degree $1)"
set xlabel "x"
set ylabel "y"
set grid
set terminal png size 800,600
set output 'fit_plot.png'
plot '$2' using 1:2 with points pt 7 ps 0.8 title "Data", \
     '$2' using 1:3 with lines lw 2 title "Fitted Curve"

std::system("gnuplot plot.gp");

if (degree >= 8 && rmse_on_test_region > 2 * global_rmse) {
    std::cout << "[Warning] Possible overfitting detected. "
              << "Consider reducing polynomial degree." << std::endl;
}
double r2 = fitter.compute_r_squared();
if (r2 < 0.8) {
    std::cout << "[Suggestion] Low R² (" << r2 << "). Model may underfit. Try higher degree or check data noise." << std::endl;
}

Eigen::MatrixXd regularized_A = V.transpose() * V + lambda * Eigen::MatrixXd::Identity(degree+1, degree+1);
coefficients = regularized_A.ldlt().solve(V.transpose() * y_vector);

C++ 多项式曲线拟合实战：从理论到工程落地

C++ 多项式曲线拟合实战：从理论到工程落地

引言

多项式建模：不只是个公式，而是对自由度的掌控

范德蒙矩阵：把离散数据变成代数语言

更多推荐文章

相关免费在线工具

阶数选择的艺术：偏差 - 方差的永恒博弈

最小二乘法：优雅背后的数学逻辑

正规方程推导：微积分遇上线性代数

凸优化视角：为什么你能相信这个解？

数据处理实战：让理论真正跑起来

文件读取：别让格式毁了你的努力

异常值剔除：别让 outliers 毁了整锅汤

归一化：拯救病态矩阵的最后一道防线

高效求解策略：不只是快，更是稳

高斯消元：教学经典 vs 实战局限

SVD：终极武器，专治各种不服

完整系统集成：从命令行到可视化

模块化设计：CurveFitter 类登场

命令行交互：让用户掌控节奏

自动绘图：一键生成图表

模型诊断：防止自我欺骗的关键一步

写在最后：拟合不仅是技术，更是思维方式

更多推荐文章

相关免费在线工具

C++ 多项式曲线拟合实战：从理论到工程落地

C++ 多项式曲线拟合实战：从理论到工程落地

引言

多项式建模：不只是个公式，而是对自由度的掌控

范德蒙矩阵：把离散数据变成代数语言

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

阶数选择的艺术：偏差 - 方差的永恒博弈

最小二乘法：优雅背后的数学逻辑

正规方程推导：微积分遇上线性代数

凸优化视角：为什么你能相信这个解？

数据处理实战：让理论真正跑起来

文件读取：别让格式毁了你的努力

异常值剔除：别让 outliers 毁了整锅汤

归一化：拯救病态矩阵的最后一道防线

高效求解策略：不只是快，更是稳

高斯消元：教学经典 vs 实战局限

SVD：终极武器，专治各种不服

完整系统集成：从命令行到可视化

模块化设计：CurveFitter 类登场

命令行交互：让用户掌控节奏

自动绘图：一键生成图表

模型诊断：防止自我欺骗的关键一步

写在最后：拟合不仅是技术，更是思维方式

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具