研究背景与问题
当前工业预测性维护(PHM)领域存在三个主要瓶颈:
- 任务割裂问题:现有深度学习方法通常将故障诊断(FD)和剩余使用寿命预测(RUL)作为独立任务处理,忽略了两者间的自然依赖关系。
- 泛化能力差:传统深度学习模型高度依赖特定工况下的标注数据,环境变化时鲁棒性显著下降。
- LLM 应用受限:LLM 难以直接处理非语义的时间序列振动数据。现有的数值序列 Token 化方式不符合振动信号的时频物理特性,且简单多任务微调容易导致任务干扰。
核心方法
一、数据预处理与特征工程
在将数据喂给 LLM 之前,必须先将原始的高频振动信号转化为 LLM 能理解的形式。
1. 故障起始点确定 (FPT Determination)
- 目的:轴承早期大部分时间是健康的,需找到'退化开始'的那一刻。
- 方法:采用 3σ准则。计算信号均方根(RMS)的均值和标准差。当连续一段时间的 RMS 值超过 μ + 3σ时,判定故障发生,此后的数据才用于 RUL 预测。
2. 差异化的特征提取
- 针对故障诊断 (FD):看频域
- 工具:快速傅里叶变换 (FFT)。
- 逻辑:故障表现为频谱上的特定频率峰值。FFT 能将时域波形转换为频域幅度谱。
- 处理:截取信号片段 -> FFT 变换 -> 得到幅度向量。
- 针对 RUL 预测:看趋势
- 工具:滑动窗口 + 经验模态分解 (EMD)。
- 逻辑:寿命衰退是渐进过程。EMD 将信号分解为高频(噪声/冲击)和低频(趋势)分量。
- 处理:使用滑动窗口截取历史数据 -> EMD 分解 -> 提取统计特征(如 RMS、峭度等) -> 形成多维特征矩阵。
二、模态对齐策略
1. 针对故障诊断(FD):FFT 频谱文本化
- 转换过程:
- 对原始振动信号做 FFT 得到幅度谱。
- 量化:将连续的浮点数值截断并转换为整数,以减少 Token 长度。
- 序列化:将这些整数用逗号连接,形成文本字符串(例如
"8, 28, 99...")。
- Prompt 形式:数字序列嵌入到自然语言指令中,告诉 LLM:'基于以下特征进行故障诊断'。
2. 针对 RUL 预测:多域特征表格文本化
- 转换过程:
- 使用滑动窗口机制,提取多个时间步的多域统计特征。
- 表格化结构:将特征按时间步组织成类似表格的结构。
- 序列化:将表格逐行转化为文本描述,明确标记时间步。
- 目的:显式的时序编码让 LLM 利用上下文理解能力推断特征随时间的演变规律。
3. 提示词构建 (Prompt Construction)
将上述数据字符串嵌入到预定义的模板中,包含角色设定、工况上下文及任务指令。
4. 优缺点分析
- 优势:无需修改模型结构,直接复用 LLM 原生的文本输入接口;实现数值特征与自然语言的无缝融合。

