YOLOv10n-SOEP-PST 助老机器人目标检测系统详解

背景与演进

目标检测技术的发展经历了从 YOLOv1 到 YOLOv10 的快速迭代。早期的 YOLOv1 将检测问题转化为回归问题，虽然速度快但定位精度有限。YOLOv2 引入 Anchor Box 和 BN 层，提升了小目标检测能力；YOLOv3 则通过特征融合和多尺度预测进一步增强了复杂场景下的表现。

然而，针对助老机器人的特定场景——光照变化大、目标遮挡频繁、计算资源受限——我们需要更针对性的优化。因此，我们基于 YOLOv10n 提出了 SOEP-PST 改进模型，旨在平衡实时性与高精度。

核心架构设计

1. SOEP 模块：空间 - 上下文增强

SOEP（Spatial-Context Enhancement Processing）模块主要解决小目标检测和遮挡识别问题。它包含两个关键组件：轻量级注意力机制 (LAM) 和自适应特征融合策略 (AFF)。

轻量级注意力机制 (LAM) 通过通道注意力机制，自适应地增强重要特征通道的响应。计算公式如下：

Attention(X) = σ(f^T(W_g X + b_g)) ⊙ (W_x X + b_x)

其中 $X$ 是输入特征图，$\sigma$ 是 sigmoid 函数。这能有效抑制无关通道的干扰，提升对小目标的感知能力。

自适应特征融合策略 (AFF) 动态调整不同尺度特征的融合权重，使模型能根据输入场景自适应选择最适合的特征信息：

F_fusion = Σ(α_i · F_i)
α_i = exp(score(F_i)) / Σ(exp(score(F_j)))

2. PST 模块：金字塔时空特征融合

PST（Pyramid Spatio-Temporal Feature Fusion）模块专门处理遮挡问题。通过构建三级特征金字塔（下采样率 1/4, 1/8, 1/16），并结合时序注意力机制 (TSAM)，利用相邻帧的信息增强当前帧的表示。

TSAM(F_t) = Conv(Concat([F_t, Context(F_{t-1}, F_{t+1})]))

这种时序融合策略使得模型即使在部分遮挡情况下，也能利用运动轨迹准确识别目标。

3. 轻量化优化

为了满足嵌入式设备的实时性要求，我们引入了深度可分离卷积 (DSC) 和通道剪枝。

深度可分离卷积：将标准卷积分解为深度卷积和逐点卷积，大幅降低计算复杂度。
通道剪枝：根据 Frobenius 范数计算通道重要性，移除冗余通道。

def preprocess_image(image):
    # 调整图像大小以匹配模型输入
    resized = cv2.resize(image, (640, 640))
    # 归一化处理
    normalized = resized / 255.0
    # 通道转换与 Batch 维度添加
    transposed = np.transpose(normalized, (2, , ))
    batched = np.expand_dims(transposed, axis=)
     batched.astype(np.float32)

模型版本	[email protected]	F1 分数	FPS
基线 YOLOv10n	0.821	0.838	52.3
+ LAM	0.843	0.859	51.7
+ AFF	0.859	0.876	51.2
+ TSAM	0.876	0.891	50.8
+ DSC	0.868	0.883	58.6
完整模型	0.892	0.907	45.0

YOLOv10n-SOEP-PST 助老机器人目标检测系统详解