USAD 算法深度解析与工业级时序异常检测实战

在智能运维（AIOps）和工业互联网领域，如何从海量的传感器数据中精准识别出设备故障、网络攻击或业务异常，一直是核心挑战。经典的自编码器（AE）虽然能学习重构，但在面对某些精巧的异常时往往表现得过于'宽容'，导致漏报。

2020 年，由 KTH 皇家理工学院提出的 USAD (UnSupervised Anomaly Detection for Multivariate Time Series) 算法横空出世。它巧妙地结合了**自编码器（AutoEncoder）的重构能力和生成对抗网络（GAN）**的对抗特性，成为了目前多维时序异常检测领域的标杆模型。

一、技术核心：为什么 USAD 如此强大？

USAD 的核心逻辑在于：通过对抗训练来弥补传统自编码器重构能力过强的缺点。

1.1 传统 AE 的痛点

普通的自编码器通过最小化重构误差来学习数据的压缩表示。然而，由于神经网络强大的拟合能力，AE 有时甚至能把异常点也复原得很好，导致异常点和正常点的重构误差差距不明显，产生大量漏报。

1.2 USAD 的创新架构

USAD 采用了三支路结构：一个共享的编码器（Encoder）和两个平行的解码器（Decoder1 和 Decoder2）。

第一阶段：自编码器重构训练两个解码器都尝试学习复原输入数据。这保证了模型具备基础的特征提取和还原能力。
第二阶段：对抗训练这是 USAD 的精髓。我们将两个解码器看作 GAN 中的角色：
- Decoder1 产生的重构数据被视为'生成的样本'。
- Decoder2 则试图分辨这个样本是真实的还是由 Decoder1 伪造的。
- Encoder 的目标是学习更深层次的分布，使得 Decoder1 产生的重构数据能够骗过 Decoder2。

通过这种'内卷'式的对抗，模型被迫学习到数据中极其细微的正常分布约束，从而对不符合分布的异常点产生极大的重构偏差。

二、核心算法与使用技巧

2.1 异常得分计算 (Anomaly Score)

USAD 在检测阶段并不是简单地计算 MSE，而是结合了两阶段的误差：

$$Score = \alpha \cdot |X - AE_1(X)| + \beta \cdot |X - AE_2(AE_1(X))|$$

通过调节 $\alpha$ 和 $\beta$，我们可以控制模型对'重构精确度'和'对抗敏感度'的倾向。

2.2 常用技巧

滑动窗口 (Sliding Window)：时序数据必须经过窗口化处理。通常窗口长度 $W$ 取决于数据的周期性，例如监控数据可取 5-10 个采样点。
标准化 (Normalization)：USAD 对数值范围非常敏感，推荐使用 MinMaxScaler 将数据映射到 [0, 1]。
学习率衰减：对抗训练初期容易震荡，建议使用 StepLR 并在训练 50 轮后降低学习率。

2.3 常见错误与排除

报错：Input contains NaN：时序数据采集常有缺失，必须在喂入模型前使用 df.fillna(method='ffill') 处理。
模型不收敛：如果损失函数一直震荡，通常是因为两阶段训练的比例不协调。建议先单独训练重构阶段（Phase 1）10 个 Epoch。

三、相关背景知识讲解

3.1 多维时间序列 (Multivariate Time Series)

不同于单维数据，多维数据（如一台服务器的 CPU、内存、网卡流量、磁盘 IO）之间存在。USAD 的编码器通过全连接层捕捉这些维度间的非线性依赖关系。

import torch import torch.nn as nn import numpy as np import pandas as pd from sklearn.preprocessing import MinMaxScaler # 1. 定义 USAD 模型结构 class Encoder(nn.Module): def __init__(self, in_size, latent_size): super().__init__() self.linear1 = nn.Linear(in_size, in_size // 2) self.linear2 = nn.Linear(in_size // 2, in_size // 4) self.linear3 = nn.Linear(in_size // 4, latent_size) self.relu = nn.ReLU() def forward(self, x): x = self.relu(self.linear1(x)) x = self.relu(self.linear2(x)) x = self.relu(self.linear3(x)) return x class Decoder(nn.Module): def __init__(self, latent_size, out_size): super().__init__() self.linear1 = nn.Linear(latent_size, out_size // 4) self.linear2 = nn.Linear(out_size // 4, out_size // 2) self.linear3 = nn.Linear(out_size // 2, out_size) self.relu = nn.ReLU() self.sigmoid = nn.Sigmoid() def forward(self, x): x = self.relu(self.linear1(x)) x = self.relu(self.linear2(x)) x = self.sigmoid(self.linear3(x)) return x class USAD(nn.Module): def __init__(self, w_size, z_size): super().__init__() self.encoder = Encoder(w_size, z_size) self.decoder1 = Decoder(z_size, w_size) self.decoder2 = Decoder(z_size, w_size) def training_step(self, batch, n): z = self.encoder(batch) w1 = self.decoder1(z) w2 = self.decoder2(z) w3 = self.decoder2(self.encoder(w1)) # Phase 1: 重构阶段 loss1 = 1/n * torch.mean(torch.abs(batch - w1)) + (1-1/n) * torch.mean(torch.abs(batch - w3)) # Phase 2: 对抗阶段 loss2 = 1/n * torch.mean(torch.abs(batch - w2)) - (1-1/n) * torch.mean(torch.abs(batch - w3)) return loss1, loss2 # 2. 数据处理：滑动窗口化 def create_windows(data, window_size): windows = [] for i in range(len(data) - window_size + 1): windows.append(data[i:i+window_size].reshape(-1)) return np.array(windows) # 3. 模拟实战流程 def run_usad_demo(): # 模拟数据生成：5 个维度的传感器数据 np.random.seed(42) normal_data = np.random.rand(1000, 5) test_data = np.random.rand(200, 5) test_data[50:60] += 2.0 # 注入异常 scaler = MinMaxScaler() normal_data = scaler.fit_transform(normal_data) test_data = scaler.transform(test_data) w_size = 10 # 窗口大小 train_windows = create_windows(normal_data, w_size) test_windows = create_windows(test_data, w_size) train_loader = torch.utils.data.DataLoader( torch.from_numpy(train_windows).float(), batch_size=64, shuffle=True) # 实例化模型 model = USAD(w_size * 5, z_size=20) opt1 = torch.optim.Adam(list(model.encoder.parameters()) + list(model.decoder1.parameters())) opt2 = torch.optim.Adam(list(model.encoder.parameters()) + list(model.decoder2.parameters())) # 训练循环 epochs = 20 for epoch in range(epochs): for batch in train_loader: loss1, loss2 = model.training_step(batch, epoch + 1) loss1.backward(retain_graph=True) opt1.step() opt1.zero_grad() loss2.backward() opt2.step() opt2.zero_grad() if epoch % 5 == 0: print(f"Epoch {epoch} complete") # 检测 model.eval() with torch.no_grad(): test_batch = torch.from_numpy(test_windows).float() z = model.encoder(test_batch) w1 = model.decoder1(z) w2 = model.decoder2(model.encoder(w1)) # 计算异常得分 scores = 0.5 * torch.mean(torch.abs(test_batch - w1), axis=1) + \ 0.5 * torch.mean(torch.abs(test_batch - w2), axis=1) return scores if __name__ == "__main__": scores = run_usad_demo() print("Top 5 anomaly scores:", scores[:5].numpy())

USAD 算法深度解析与工业级时序异常检测实战