DepRadar：基于多智能体协作的深度学习库缺陷检测框架

论文信息

论文原标题：DepRadar: Agentic Coordination for Context-Aware Defect Impact Analysis in Deep Learning Libraries
主要作者及研究机构：
- Yi Gao（浙江大学区块链与数据安全国家重点实验室）
- Xing Hu*（浙江大学区块链与数据安全国家重点实验室，通讯作者）
- Tongtong Xu（华为杭州）
- Jiali Zhao（华为杭州）
- Xiaohu Yang（浙江大学区块链与数据安全国家重点实验室）
- Xin Xia（浙江大学区块链与数据安全国家重点实验室）
引文格式（GB/T 7714）：Gao Y, Hu X, Xu T, et al. DepRadar: Agentic Coordination for Context-Aware Defect Impact Analysis in Deep Learning Libraries[C]//2026 IEEE/ACM 48th International Conference on Software Engineering (ICSE'26). Rio de Janeiro, Brazil: ACM, 2026: 1-13.
论文链接：https://doi.org/10.1145/3744916.3787763
开源地址：https://github.com/testmigrator/DepRadar

一段话总结

DepRadar 是一款针对深度学习（DL）库的多智能体协作框架，通过协调 PR 挖掘器、代码差异分析器、协调器和影响分析器四大智能体，分三步完成缺陷语义提取、缺陷模式生成和客户端影响分析，整合静态分析与 DL 领域特定规则提升准确性和可解释性；在 Transformers 和 Megatron 两大 DL 库的 227 个库更新（157 个 PR 和 70 个提交）上评估，缺陷识别精度达 90%、F1 值 95%，在 122 个客户端程序中影响分析召回率 90%、精度 80%、F1 值 85%，显著优于 FlatLLM 系列和 PyCG 等基线，能有效解决 DL 库缺陷表征嘈杂、语义鸿沟、使用场景匹配难等挑战，为下游用户精准识别潜在受影响风险。

在这里插入图片描述

研究背景

在 AI 技术飞速发展的今天，Transformers、Megatron 这类深度学习（DL）库早已成为开发者手中的必备工具。它们封装了分词、分布式训练、内存管理等复杂功能，让开发者不用从零搭建基础架构，就能高效构建大规模 AI 模型。

但随着这些库的规模和复杂度不断提升，一个棘手的问题逐渐凸显：缺陷难以察觉且影响难评估。和普通软件 Bug 不同，DL 库的缺陷往往不会直接导致程序崩溃，而是以静默形式存在——可能是训练时的数值微小偏差，可能是资源利用效率降低，也可能是模型收敛速度变慢。

比如 Megatron 的某个提交曾存在一个缺陷，导致多用户训练结果出现偏差，却在数月后才被发现；还有些缺陷会在特定硬件（如 Ascend NPU）、特定配置（如启用 Flash Attention v2）下才触发，下游开发者根本无从知晓自己的项目是否中招。

更麻烦的是，依赖升级成本极高。在 DL 领域，更新一次库版本可能需要重新训练模型，不仅耗时耗力，还可能引发兼容性问题。而库的发布说明通常含糊其辞，只写修复稳定性问题，却不说明影响哪些模块、需要什么触发条件。传统工具要么只做简单的代码语法分析，要么只能生成通用总结，无法跨越库内部修复和用户实际使用之间的语义鸿沟，让开发者陷入不升级怕有 Bug，升级又怕出问题的两难境地。

创新点

多智能体协作架构：创新性地设计四大专用智能体分工协作，分别负责缺陷元数据提取、代码差异分析、缺陷模式合成和客户端影响验证，打破单一工具的能力局限。
上下文感知的渐进式分析：引入渐进式上下文增强机制，动态扩展或压缩输入信息，既解决 LLM 长文本处理限制，又能完整捕捉分散在 PR 讨论、代码差异中的缺陷信号。
领域规则 + 静态验证双保险：融合 DL 领域特定规则（如实体提升、参数暴露），将库内部低层级修复映射为用户可见的使用场景；同时通过 AST 静态验证，大幅降低 LLM 生成结果的幻觉问题。

评估任务	关键指标	结果	对比优势
缺陷识别	精确率/召回率/F1 值	90%/99%/95%	远超 FlatLLM（Base：81%/92%/86%）、PyCG 等基线
缺陷模式字段质量	平均得分（满分 2 分）	1.6 分	缺陷背景、影响范围的完全准确率分别达 71%、84%
客户端影响分析	精确率/召回率/F1 值	80%/90%/85%	比 FlatLLM（Base）精确率提升 17 个百分点，特异性提升 28 个百分点
提交场景适配（缺陷模式）	精确率/召回率/F1 值	96%/90%/93%	即使缺少 PR 讨论上下文，仍保持高准确性
计算成本	总 tokens/总成本/总耗时	1.29M/$0.5/221.5 分钟	成本低廉，适合实际部署

步骤	核心任务	负责智能体	输出结果
1. 缺陷语义提取	从 PR/提交中提取结构化信息	PR/Commit 挖掘器 + 代码差异分析器	缺陷元数据、补丁语义解析结果
2. 缺陷模式生成	整合信息，生成用户视角的缺陷特征	协调器	结构化缺陷模式（属性/风险因素/最小触发示例）
3. 客户端影响分析	验证客户端是否满足触发条件	影响分析器	影响报告（是否受影响/匹配依据/推理过程）

维度	细节
评估对象	Transformers（Q2 2025 合并的 157 个缺陷 PR）、Megatron（70 个缺陷提交）
客户端数据	122 个依赖 Transformers 的开源项目、Megatron 下游项目 MindSpeed
基线模型	FlatLLM（Base）：零样本总结；FlatLLM（Reasoning）：DeepSeek-R1 自推理；PyCG：静态调用图分析
LLM 配置	DeepSeek-V3，temperature=0，top-p=1.0（确定性解码）

任务类型	平均 Tokens	总 Tokens	平均时间（分钟）	总时间（分钟）
缺陷模式（PR）	5K	785K	0.5	78.5
缺陷模式（提交）	<2K	140K	<0.3	21
影响分析（客户端）	3K	366K	1.0	122
总计	-	1.29M	-	221.5

系统变体	缺陷识别 F1 值	影响分析 F1 值	关键结论
完整版本	95%	85%	-
无自适应上下文	91%	-	上下文增强对分散缺陷信号提取至关重要
无多智能体协作	68%	-	单 LLM 难以处理结构化分解与语义歧义
无验证层	-	75%	静态验证可降低假阳性（Prec.从 80%→66%）
无领域映射	-	73%	领域规则可提升召回率（Rec.从 90%→76%）

DepRadar：基于多智能体协作的深度学习库缺陷检测框架