DepRadar:基于多智能体协作的深度学习库缺陷检测框架
论文信息
- 论文原标题:DepRadar: Agentic Coordination for Context-Aware Defect Impact Analysis in Deep Learning Libraries
- 主要作者及研究机构:
- Yi Gao(浙江大学区块链与数据安全国家重点实验室)
- Xing Hu*(浙江大学区块链与数据安全国家重点实验室,通讯作者)
- Tongtong Xu(华为杭州)
- Jiali Zhao(华为杭州)
- Xiaohu Yang(浙江大学区块链与数据安全国家重点实验室)
- Xin Xia(浙江大学区块链与数据安全国家重点实验室)
- 引文格式(GB/T 7714):Gao Y, Hu X, Xu T, et al. DepRadar: Agentic Coordination for Context-Aware Defect Impact Analysis in Deep Learning Libraries[C]//2026 IEEE/ACM 48th International Conference on Software Engineering (ICSE'26). Rio de Janeiro, Brazil: ACM, 2026: 1-13.
- 论文链接:https://doi.org/10.1145/3744916.3787763
- 开源地址:https://github.com/testmigrator/DepRadar
一段话总结
DepRadar 是一款针对深度学习(DL)库的多智能体协作框架,通过协调 PR 挖掘器、代码差异分析器、协调器和影响分析器四大智能体,分三步完成缺陷语义提取、缺陷模式生成和客户端影响分析,整合静态分析与 DL 领域特定规则提升准确性和可解释性;在 Transformers 和 Megatron 两大 DL 库的 227 个库更新(157 个 PR 和 70 个提交)上评估,缺陷识别精度达 90%、F1 值 95%,在 122 个客户端程序中影响分析召回率 90%、精度 80%、F1 值 85%,显著优于 FlatLLM 系列和 PyCG 等基线,能有效解决 DL 库缺陷表征嘈杂、语义鸿沟、使用场景匹配难等挑战,为下游用户精准识别潜在受影响风险。

研究背景
在 AI 技术飞速发展的今天,Transformers、Megatron 这类深度学习(DL)库早已成为开发者手中的必备工具。它们封装了分词、分布式训练、内存管理等复杂功能,让开发者不用从零搭建基础架构,就能高效构建大规模 AI 模型。
但随着这些库的规模和复杂度不断提升,一个棘手的问题逐渐凸显:缺陷难以察觉且影响难评估。和普通软件 Bug 不同,DL 库的缺陷往往不会直接导致程序崩溃,而是以静默形式存在——可能是训练时的数值微小偏差,可能是资源利用效率降低,也可能是模型收敛速度变慢。
比如 Megatron 的某个提交曾存在一个缺陷,导致多用户训练结果出现偏差,却在数月后才被发现;还有些缺陷会在特定硬件(如 Ascend NPU)、特定配置(如启用 Flash Attention v2)下才触发,下游开发者根本无从知晓自己的项目是否中招。
更麻烦的是,依赖升级成本极高。在 DL 领域,更新一次库版本可能需要重新训练模型,不仅耗时耗力,还可能引发兼容性问题。而库的发布说明通常含糊其辞,只写修复稳定性问题,却不说明影响哪些模块、需要什么触发条件。传统工具要么只做简单的代码语法分析,要么只能生成通用总结,无法跨越库内部修复和用户实际使用之间的语义鸿沟,让开发者陷入不升级怕有 Bug,升级又怕出问题 的两难境地。
创新点
- 多智能体协作架构:创新性地设计四大专用智能体分工协作,分别负责缺陷元数据提取、代码差异分析、缺陷模式合成和客户端影响验证,打破单一工具的能力局限。
- 上下文感知的渐进式分析:引入渐进式上下文增强机制,动态扩展或压缩输入信息,既解决 LLM 长文本处理限制,又能完整捕捉分散在 PR 讨论、代码差异中的缺陷信号。
- 领域规则 + 静态验证双保险:融合 DL 领域特定规则(如实体提升、参数暴露),将库内部低层级修复映射为用户可见的使用场景;同时通过 AST 静态验证,大幅降低 LLM 生成结果的幻觉问题。



