跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

基于强化学习的无标记 RAG 增强型 LLM 智能故障诊断 | 极客日志

PythonAI算法

基于强化学习的无标记 RAG 增强型 LLM 智能故障诊断

一种基于强化学习的无标记检索增强生成（RAG）框架 TG-RL-RAG，用于解决大型语言模型在工业故障诊断中缺乏领域知识及标注成本高的问题。该方法利用近端策略优化（PPO）算法直接优化检索网络，通过构建基于专业词库的图结构作为训练环境，并结合递减式教师引导策略实现持续学习。核心创新在于无需人工标注相关性标签，而是利用冻结 LLM 生成的回答质量作为奖励信号，有效提升了检索准确性和系统响应稳定性，适用于动态工业环境中的小样本数据场景。

黑客帝国发布于 2026/3/22更新于 2026/6/229K 浏览

文章背景

题目：Labeling-free RAG-enhanced LLM for intelligent fault diagnosis via reinforcement learning

研究问题

缺乏专业知识：大型语言模型（LLMs）虽然拥有广泛的通用领域知识，但由于工业复杂系统故障发生的频率较低且具有技术保密性，LLMs 在预训练阶段往往缺乏特定领域的故障诊断知识。
标注成本高昂：现有的检索增强生成（RAG）框架大多依赖监督学习，需要对每个查询标注相关的语料库，这在处理大规模工业数据时极其耗时且劳动强度大。
模型输出不稳定性：LLM 固有的随机性导致生成的响应不稳定，使得在监督学习中难以一致地确定不同检索文档集的优劣。

研究目标

开发一种无标记 RAG 方法：提出一种基于强化学习的 RAG 方法（TG-RL-RAG），旨在消除对人工标注相关性标签的依赖。
优化检索策略：通过近端策略优化（PPO）算法直接优化检索网络，提高检索的准确性和系统响应的质量。
实现持续学习：引入'递减式教师引导策略'，使模型能够随着新故障查询的增加而不断自更新，增强在动态工业环境中的实用性。

所用方法

一、基于专业词库的图结构构建

相似度计算：利用专家精心挑选的专业词汇库。计算两个文档间的词级重叠度，其中专业词汇的权重高于普通词汇。
构图逻辑：为每个文档计算与其相似度最高的 top-k_graph 个文档，并在它们之间建立边，生成邻接矩阵。
定位：这个图并非直接用于检索，而是作为强化学习智能体的训练'环境'，起到'粗调'的作用。

二、基于 PPO 算法的策略优化

智能体的任务是在图中寻找与当前查询最相关的文档路径。

状态表示：智能体在每一步都会感知以下信息：
- 语义信息：查询语句和故障文档的向量嵌入。
- 轨迹信息：当前所在节点的位置以及已经访问过的节点历史轨迹。
神经网络架构：采用 Actor-Critic 框架。Actor 网络负责输出下一步移动到哪个节点的概率分布，Critic 网络负责估计当前状态的价值。
复合奖励函数（$R_{PPO}$)：这是模型无需标签的核心：
- 结构探索奖励：如果智能体选择了图中存在的合法路径，给予正向奖励，确保其行为符合物理逻辑。
- 检索质量奖励：这是关键。系统将智能体检索到的文档交给 Frozen LLM 生成回答，计算该回答与'预期文本'（由人类反馈确认）的语义相似度（如 BLEU 或 ROUGE 分数）作为奖励值。

三、渐进式递减导师指导策略

针对实际生产中不断涌现的新查询，该策略解决了重复训练成本高的问题。

知识迁移：将之前在原始查询集上训练好的智能体作为'预训练智能体'（Teacher），引导正在学习新查询的'处理智能体'（Student）。
引导奖励：计算教师和学生两个模型动作分布之间的 KL 散度。散度越小，说明学生越好地继承了教师的检索经验。
动态衰减机制：
- 前期：较大，学生模型主要模仿老师处理旧数据的能力。
- 后期：逐渐减小，学生模型开始侧重于通过自主探索来优化新出现的补充查询。

未来研究方向

无监督奖励函数设计：这种利用 LLM 自身输出质量来反馈优化检索器（Retriever）的思路，是目前解决工业小样本数据难题的非常前沿的方向。

专业名词

核心技术术语

LLM（大语言模型 / Large Language Models）：像 ChatGPT 这样拥有数十亿参数、能够理解并生成人类语言的复杂人工智能系统。
RAG（检索增强生成 / Retrieval-Augmented Generation）：一种通过从外部知识库检索相关信息来增强人工智能模型准确性的技术，使模型在回答问题前能先'查阅资料'。
RL（强化学习 / Reinforcement Learning）：一种机器学习方法，通过让智能体在环境中不断试错，并根据结果获得'奖励'或'惩罚'来学习最佳决策策略。
TG-RL-RAG：本文提出的方法全称，指结合了'教师引导'和'强化学习'的检索增强生成框架。

算法与模型组件

PPO（近端策略优化 / Proximal Policy Optimization）：强化学习中一种常用的算法，其特点是在训练过程中非常稳定且易于实现。
智能体（Agent）：在强化学习框架中负责执行动作（如在文档图中行走以寻找答案）的人工智能核心部分。
Actor-Critic（演员 - 评论家框架）：一种神经网络结构，其中'演员'负责提出动作，而'评论家'负责评价这些动作的好坏。
KL 散度（Kullback-Leibler Divergence）：一种数学度量方式，用于衡量两个概率分布（例如老师的建议和学生的行为）之间的差异。

数据与结构术语

邻接矩阵（Adjacency Matrix）：一种数学'地图'，用表格的形式记录了哪些文档节点之间存在连接关系。
图结构数据（Graph-structured data）：将信息组织成点（文档）和线（相关性连接）的网络形式，方便智能体进行探索。
垂直领域（Vertical domains）：指特定的专业行业或领域（如工业故障诊断），这些领域通常具有通用大模型难以触及的专业知识壁垒。

评估与优化指标

BLEU / ROUGE：用于衡量人工智能生成的文本与人类提供的标准答案之间相似程度的自动化评估工具。
Hit Rate（命中率）：一种衡量检索准确性的指标，表示在模型找出的前 N 个结果中，包含正确答案的比例。
TTA（测试时自适应 / Test-Time Adaptation）：使模型在实际部署运行过程中，能够根据新出现的数据分布实时调整自身能力的技术。

教学策略术语

递减式教师引导策略（Progressively Diminishing Teacher Guidance）：本文创新提出的一种方法，即让已训练好的模型像老师一样指导新模型，且指导力度随新模型能力的增强而逐渐减弱。

邻接矩阵

基本定义邻接矩阵通常用 A 表示。如果图中有 n 个节点（在本文中为 n 篇故障文档），那么邻接矩阵就是一个 n*n 的矩阵。

矩阵元素 A(i, j) = 1：表示节点 i 与节点 j 之间存在一条边；
矩阵元素 A(i, j) = 0：表示节点 i 与节点 j 之间没有直接连接。

在本论文中的构建方式本文通过以下步骤计算并填充邻接矩阵：

相似度排序：针对每一篇文档，利用专业词汇库计算它与其他所有文档的相似度，并生成一个降序排列的列表。
Top-k 筛选：为了保证图的稀疏性和检索效率，论文仅选取排序最靠前的 k_graph 个相关文档建立连接。

邻接矩阵的核心作用在 TG-RL-RAG 框架中，邻接矩阵不仅仅是一个数据结构，它承担了以下角色：

定义行动空间：它规定了强化学习智能体在当前节点时，哪些下一步动作（跳转到其他文档）是合法的。
结构约束：通过'结构探索奖励'，智能体如果尝试跨越邻接矩阵中不存在的边，会受到惩罚或被视为无效动作，从而确保智能体只在语义相关的文档间跳转。
粗调机制：邻接矩阵构成了图结构的基础，起到'粗调'（Coarse-tuning）作用，限制了搜索范围，而具体的精确检索则交给智能体在这些路径中进行'微调'优化。

TTA 测试时适应（Test-Time Adaptation）

核心定义通常的机器学习是'先训练，后使用'，训练好后模型就固定不变了。而 TTA 的目标是让模型在测试阶段（即实际部署运行阶段），能够根据输入的数据实时地（Real-time）进行自我调整。
为什么要用 TTA？解决'分布偏移' 在实验室环境下训练模型时，数据是完美的。但在现实工业场景中，会出现分布偏移：

设备老化：机器用久了，振动信号会变，和刚买时不一样。
环境变化：冬天和夏天的运行参数不同。
新故障出现：出现了模型以前没见过的故障类型。
后果：如果不进行适应，模型的诊断准确率会大幅下降。

TTA 的关键特点

无须标签（Label-free）：在实际测试时，我们通常不知道正确答案（标签），TTA 必须在没有人工标注的情况下完成自我进化。
无需大规模重训：它不需要停机并使用全部历史数据进行长时间的重新训练，而是在运行过程中进行轻量化的更新。
高效与轻量：工业场景要求系统反应快，因此 TTA 方法必须足够简单、高效，以减少停机时间并提高系统的长期可用性。

目录

文章背景
研究问题
研究目标
所用方法
一、基于专业词库的图结构构建
二、基于 PPO 算法的策略优化
三、渐进式递减导师指导策略
未来研究方向
专业名词
核心技术术语
算法与模型组件
数据与结构术语
评估与优化指标
教学策略术语
邻接矩阵
TTA 测试时适应（Test-Time Adaptation）

免费图片AI生成工具免费生成了解详情

Magick API 一键接入全球大模型注册送1000万token查看
免费图片视频在线生成30秒，将你的创意变成现实开始设计
X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
100+免费在线小游戏爽一把

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

Android 插件化技术全解析与核心原理实践
AI 小说生成器：基于大语言模型的长篇小说创作工具
GitHub 日榜：AI 智能体与前沿工具精选
程序员转型 AI 产品经理：核心能力与成长路径
ERNIE-4.5-0.3B 超轻量模型部署与测评指南
ERNIE-4.5-0.3B 轻量模型部署指南与能力实测
10 款主流 AIGC 降重工具免费与付费版对比评测
Ubuntu 22.04 更换清华镜像源全流程
llama.cpp Vulkan 后端在 AMD 显卡上的完整部署指南：从问题诊断到性能优化
OpenCode AI 编程工具使用教程：从安装到实战
C++ 哈希表封装：模拟实现 unordered_map 和 unordered_set
C++ 二叉搜索树：原理与增删查实现详解
AIGC 中的变分自编码器（VAE）代码与实现
时间序列预测中如何构建层级化的 Transformer 架构
AI 大模型入门指南：理解原理与高效提示词技巧
基于 OpenClaw 与飞书构建 7x24 小时服务器运维机器人
人工智能大模型技术白皮书
C++ 仿 Muduo 库实战：Server 服务器模块实现（上）
LeetCode 744. 寻找比目标字母大的最小字母（二分查找）
六自由度机器人逆运动学详解及 Matlab 代码

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online