常见机器学习算法原理：线性回归、决策树、SVM 与聚类 | 极客日志

PythonAI算法

常见机器学习算法原理：线性回归、决策树、SVM 与聚类

综述由AI生成四种常见的机器学习算法：线性回归、决策树、支持向量机（SVM）和聚类算法。详细阐述了各算法的基本原理、核心公式、Python 代码实现及应用场景。线性回归通过梯度下降优化参数；决策树基于信息熵或基尼系数构建；SVM 寻找最大间隔超平面；K-Means 等聚类算法用于无监督学习。文末提供算法选择指南，帮助根据数据特征选择合适的模型。

游戏玩家发布于 2026/3/27更新于 2026/6/627 浏览

机器学习算法是人工智能领域的核心工具，不同的算法适用于不同的问题场景。本文将深入讲解几种最常用的机器学习算法，包括线性回归、决策树、支持向量机和聚类算法，帮助读者理解它们的原理、应用场景以及实现方式。

线性回归：最简单却最实用的算法

线性回归是机器学习中最基础也是最重要的算法之一。虽然它看起来很简单，但在实际应用中却非常有效，很多复杂的算法都是在线性回归的基础上发展而来的。

线性回归的基本原理

线性回归的核心思想是找到一条直线（或者高维空间中的超平面），使得这条线能够最好地拟合数据点。用数学语言来说，就是找到一个函数关系，使得预测值和真实值之间的误差最小。

对于最简单的一元线性回归，我们要找的是这样一个函数：

y = wx + b

其中，x 是输入特征，y 是预测值，w 是权重（斜率），b 是偏置（截距）。我们的目标是找到最优的 w 和 b，使得所有样本点到这条直线的距离之和最小。

这个距离通常用均方误差来衡量：

MSE = (1/n) * Σ(y_i - ŷ_i)²

其中，y_i 是真实值，ŷ_i 是预测值，n 是样本数量。

梯度下降法求解

要找到最优的参数，最常用的方法就是梯度下降法。梯度下降的思想很直观：想象你站在山顶，想要下到山谷，最快的方法就是沿着最陡的方向往下走。在数学上，这个最陡的方向就是梯度的反方向。

具体的更新规则是：

w = w - α * ∂L/∂w
b = b - α * ∂L/∂b

其中，α是学习率，控制每次更新的步长。学习率太大可能导致震荡，太小则收敛速度慢。

下面用代码来实现一个简单的线性回归：

import numpy as np
import matplotlib.pyplot as plt

class LinearRegression:
    def __init__(self, learning_rate=0.01, iterations=1000):
        self.lr = learning_rate
        self.iterations = iterations
        self.w = None
        self.b = None
        self.losses = []

    def fit(self, X, y):
        # 初始化参数
        n_samples, n_features = X.shape
        self.w = np.zeros(n_features)
        self.b = 0
        # 梯度下降
        for i in range(self.iterations):
            
            y_pred = np.dot(X, .w) + .b
            
            loss = np.mean((y - y_pred)**)
            .losses.append(loss)
            
            dw = -(/n_samples) * np.dot(X.T, (y - y_pred))
            db = -(/n_samples) * np.(y - y_pred)
            
            .w -= .lr * dw
            .b -= .lr * db
             i %  == :
                ()

     ():
         np.dot(X, .w) + .b


np.random.seed()
X =  * np.random.rand(, )
y =  +  * X + np.random.randn(, )


model = LinearRegression(learning_rate=, iterations=)
model.fit(X, y.ravel())


X_test = np.array([[], []])
predictions = model.predict(X_test)
()


plt.scatter(X, y, color=, label=)
plt.plot(X_test, predictions, color=, linewidth=, label=)
plt.xlabel()
plt.ylabel()
plt.legend()
plt.title()
plt.show()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import numpy as np
from collections import Counter

class DecisionTreeNode:
    def __init__(self, feature=None, threshold=None, left=None, right=None, value=None):
        self.feature = feature  # 分裂特征的索引
        self.threshold = threshold  # 分裂阈值
        self.left = left  # 左子树
        self.right = right  # 右子树
        self.value = value  # 叶子节点的类别

class DecisionTree:
    def __init__(self, max_depth=10, min_samples_split=2):
        self.max_depth = max_depth
        self.min_samples_split = min_samples_split
        self.root = None

    def _entropy(self, y):
        """计算信息熵"""
        counter = Counter(y)
        probs = np.array(list(counter.values())) / len(y)
        return -np.sum(probs * np.log2(probs + 1e-10))

    def _information_gain(self, X, y, feature, threshold):
        """计算信息增益"""
        # 父节点熵
        parent_entropy = self._entropy(y)
        # 分裂
        left_mask = X[:, feature] <= threshold
        right_mask = ~left_mask
        if np.sum(left_mask) == 0 or np.sum(right_mask) == 0:
            return 0
        # 子节点熵
        n = len(y)
        n_left, n_right = np.sum(left_mask), np.sum(right_mask)
        e_left = self._entropy(y[left_mask])
        e_right = self._entropy(y[right_mask])
        child_entropy = (n_left / n) * e_left + (n_right / n) * e_right
        return parent_entropy - child_entropy

    def _best_split(self, X, y):
        """找到最优分裂点"""
        best_gain = -1
        best_feature = None
        best_threshold = None
        n_features = X.shape[1]
        for feature in range(n_features):
            thresholds = np.unique(X[:, feature])
            for threshold in thresholds:
                gain = self._information_gain(X, y, feature, threshold)
                if gain > best_gain:
                    best_gain = gain
                    best_feature = feature
                    best_threshold = threshold
        return best_feature, best_threshold

    def _build_tree(self, X, y, depth=0):
        """递归构建决策树"""
        n_samples, n_features = X.shape
        n_classes = len(np.unique(y))
        # 停止条件
        if depth >= self.max_depth or n_samples < self.min_samples_split or n_classes == 1:
            leaf_value = Counter(y).most_common(1)[0][0]
            return DecisionTreeNode(value=leaf_value)
        # 找到最优分裂点
        best_feature, best_threshold = self._best_split(X, y)
        if best_feature is None:
            leaf_value = Counter(y).most_common(1)[0][0]
            return DecisionTreeNode(value=leaf_value)
        # 分裂数据
        left_mask = X[:, best_feature] <= best_threshold
        right_mask = ~left_mask
        # 递归构建左右子树
        left_subtree = self._build_tree(X[left_mask], y[left_mask], depth + 1)
        right_subtree = self._build_tree(X[right_mask], y[right_mask], depth + 1)
        return DecisionTreeNode(best_feature, best_threshold, left_subtree, right_subtree)

    def fit(self, X, y):
        """训练决策树"""
        self.root = self._build_tree(X, y)

    def _predict_sample(self, x, node):
        """预测单个样本"""
        if node.value is not None:
            return node.value
        if x[node.feature] <= node.threshold:
            return self._predict_sample(x, node.left)
        else:
            return self._predict_sample(x, node.right)

    def predict(self, X):
        """预测多个样本"""
        return np.array([self._predict_sample(x, self.root) for x in X])

# 使用示例
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 加载数据
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
tree = DecisionTree(max_depth=5)
tree.fit(X_train, y_train)

# 预测
y_pred = tree.predict(X_test)
accuracy = np.mean(y_pred == y_test)
print(f"准确率：{accuracy:.4f}")

import numpy as np
from sklearn import svm
from sklearn.datasets import make_classification, make_circles
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

# 生成线性可分数据
X_linear, y_linear = make_classification(n_samples=100, n_features=2, n_redundant=0, n_informative=2, n_clusters_per_class=1, random_state=42)

# 生成非线性数据
X_nonlinear, y_nonlinear = make_circles(n_samples=100, noise=0.1, factor=0.5, random_state=42)

def plot_svm_decision_boundary(X, y, model, title):
    """绘制 SVM 决策边界"""
    plt.figure(figsize=(10, 6))
    # 创建网格
    h = 0.02
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
    # 预测网格点
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    # 绘制决策边界
    plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.RdYlBu)
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.RdYlBu, edgecolors='black')
    # 绘制支持向量
    plt.scatter(model.support_vectors_[:, 0], model.support_vectors_[:, 1], s=200, linewidth=1, facecolors='none', edgecolors='k', label='支持向量')
    plt.xlabel('特征 1')
    plt.ylabel('特征 2')
    plt.title(title)
    plt.legend()
    plt.show()

# 线性 SVM
print("训练线性 SVM...")
svm_linear = svm.SVC(kernel='linear', C=1.0)
svm_linear.fit(X_linear, y_linear)
print(f"线性 SVM 准确率：{svm_linear.score(X_linear, y_linear):.4f}")
plot_svm_decision_boundary(X_linear, y_linear, svm_linear, "线性 SVM")

# RBF 核 SVM
print("\n训练 RBF 核 SVM...")
svm_rbf = svm.SVC(kernel='rbf', C=1.0, gamma='auto')
svm_rbf.fit(X_nonlinear, y_nonlinear)
print(f"RBF 核 SVM 准确率：{svm_rbf.score(X_nonlinear, y_nonlinear):.4f}")
plot_svm_decision_boundary(X_nonlinear, y_nonlinear, svm_rbf, "RBF 核 SVM")

# 比较不同 C 值的影响
print("\n比较不同 C 值的影响...")
for C in [0.1, 1, 10, 100]:
    model = svm.SVC(kernel='linear', C=C)
    model.fit(X_linear, y_linear)
    print(f"C={C}: 准确率={model.score(X_linear, y_linear):.4f}, "
          f"支持向量数量={len(model.support_vectors_)}")

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

class KMeans:
    def __init__(self, n_clusters=3, max_iters=100):
        self.n_clusters = n_clusters
        self.max_iters = max_iters
        self.centroids = None
        self.labels = None

    def fit(self, X):
        # 随机初始化聚类中心
        n_samples = X.shape[0]
        random_indices = np.random.choice(n_samples, self.n_clusters, replace=False)
        self.centroids = X[random_indices]
        for i in range(self.max_iters):
            # 分配样本到最近的聚类中心
            distances = np.sqrt(((X - self.centroids[:, np.newaxis])**2).sum(axis=2))
            self.labels = np.argmin(distances, axis=0)
            # 更新聚类中心
            new_centroids = np.array([X[self.labels == k].mean(axis=0) for k in range(self.n_clusters)])
            # 检查是否收敛
            if np.allclose(self.centroids, new_centroids):
                print(f"在第{i+1}次迭代后收敛")
                break
            self.centroids = new_centroids
        return self

    def predict(self, X):
        distances = np.sqrt(((X - self.centroids[:, np.newaxis])**2).sum(axis=2))
        return np.argmin(distances, axis=0)

# 生成示例数据
X, y_true = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=42)

# 训练 K-Means
kmeans = KMeans(n_clusters=4, max_iters=100)
kmeans.fit(X)

# 可视化结果
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
plt.scatter(X[:, 0], X[:, 1], c=y_true, cmap='viridis', alpha=0.6)
plt.title('真实分布')
plt.xlabel('特征 1')
plt.ylabel('特征 2')
plt.subplot(1, 2, 2)
plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels, cmap='viridis', alpha=0.6)
plt.scatter(kmeans.centroids[:, 0], kmeans.centroids[:, 1], c='red', marker='X', s=200, edgecolors='black', label='聚类中心')
plt.title('K-Means 聚类结果')
plt.xlabel('特征 1')
plt.ylabel('特征 2')
plt.legend()
plt.tight_layout()
plt.show()

def elbow_method(X, max_k=10):
    """肘部法则选择 K 值"""
    sse = []
    for k in range(1, max_k + 1):
        kmeans = KMeans(n_clusters=k)
        kmeans.fit(X)
        # 计算簇内误差平方和
        sse_k = sum([np.sum((X[kmeans.labels == i] - kmeans.centroids[i])**2) for i in range(k)])
        sse.append(sse_k)
    plt.figure(figsize=(8, 5))
    plt.plot(range(1, max_k + 1), sse, marker='o')
    plt.xlabel('聚类数量 K')
    plt.ylabel('簇内误差平方和 SSE')
    plt.title('肘部法则选择 K 值')
    plt.grid(True)
    plt.show()
elbow_method(X, max_k=10)

from scipy.cluster.hierarchy import dendrogram, linkage
import matplotlib.pyplot as plt

# 生成数据
X, _ = make_blobs(n_samples=50, centers=3, random_state=42)

# 层次聚类
linkage_matrix = linkage(X, method='ward')

# 绘制树状图
plt.figure(figsize=(12, 6))
dendrogram(linkage_matrix)
plt.title('层次聚类树状图')
plt.xlabel('样本索引')
plt.ylabel('距离')
plt.show()

from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moons

# 生成月牙形数据
X, _ = make_moons(n_samples=200, noise=0.05, random_state=42)

# DBSCAN 聚类
dbscan = DBSCAN(eps=0.3, min_samples=5)
labels = dbscan.fit_predict(X)

# 可视化
plt.figure(figsize=(10, 6))
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', alpha=0.6)
plt.title('DBSCAN 聚类结果')
plt.xlabel('特征 1')
plt.ylabel('特征 2')
plt.colorbar(label='簇标签')
plt.show()
print(f"发现{len(set(labels))-(1if-1in labels else0)}个簇")
print(f"噪声点数量：{list(labels).count(-1)}")

常见机器学习算法原理：线性回归、决策树、SVM 与聚类

线性回归：最简单却最实用的算法

线性回归的基本原理

梯度下降法求解

更多推荐文章

相关免费在线工具

多元线性回归

线性回归的应用场景

决策树：像人一样做决策

决策树的基本原理

信息熵与信息增益

基尼系数

决策树的实现

决策树的优缺点

决策树的改进：随机森林

支持向量机：寻找最优分界线

SVM 的基本原理

软间隔与惩罚参数

核函数：处理非线性问题

SVM 的实现

SVM 的应用场景

聚类算法：发现数据的内在结构

K-Means 聚类

K-Means 的实现

如何选择 K 值

层次聚类

DBSCAN：基于密度的聚类

聚类算法的应用场景

算法选择指南

总结

更多推荐文章

相关免费在线工具

常见机器学习算法原理：线性回归、决策树、SVM 与聚类

线性回归：最简单却最实用的算法

线性回归的基本原理

梯度下降法求解

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

多元线性回归

线性回归的应用场景

决策树：像人一样做决策

决策树的基本原理

信息熵与信息增益

基尼系数

决策树的实现

决策树的优缺点

决策树的改进：随机森林

支持向量机：寻找最优分界线

SVM 的基本原理

软间隔与惩罚参数

核函数：处理非线性问题

SVM 的实现

SVM 的应用场景

聚类算法：发现数据的内在结构

K-Means 聚类

K-Means 的实现

如何选择 K 值

层次聚类

DBSCAN：基于密度的聚类

聚类算法的应用场景

算法选择指南

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具