论文核心内容
论文信息
- 原标题: Automating the Detection of Requirement Dependencies Using Large Language Models
- 主要作者: Ikram Darif, Feifei Niu, Manel Abdellatif, Lionel C. Briand, Ramesh S, Arun Adiththan
- 研究机构: 加拿大渥太华大学、加拿大蒙特利尔高等技术学院、爱尔兰利默里克大学 Lero 软件研究中心、美国通用汽车公司
- 引文格式: DARIF I, NIU F, ABDELLATIF M, et al. Automating the Detection of Requirement Dependencies Using Large Language Models[J/OL]. arXiv:2602.22456v1 [cs.SE], 2026[2026-02-28]. https://arxiv.org/abs/2602.22456v1.
一句话总结
本文提出 LEREDD,一种基于大语言模型、融合检索增强生成(RAG)和上下文学习(ICL)的需求依赖自动检测方法,针对自然语言需求的模糊性、数量大等问题,能识别 7 类需求依赖类型并输出预测理由和置信度;研究在包含 813 个需求对的汽车领域标注数据集上,对比 GPT-4.1 等 4 款 LLM 及 TF-IDF&LSA、微调 BERT 两款基线方法,经零样本、少样本+RAG 等实验验证,LEREDD 取得 0.93 的准确率和 0.84 的 F1 分数,无依赖类 F1 达 0.96,Requires 依赖 F1 相对基线平均提升 94.87% 和 105.41%,跨数据集实验也展现出强鲁棒性,同时研究开源了标注数据集,为相关研究提供支撑,还指出零样本 LLM 在细粒度依赖检测的局限性,确定了 LEREDD 的最优提示策略。
详细总结
一、研究背景与现存问题
- 需求作为软件开发的核心工件,其相互依赖关系对开发决策、变更影响分析、一致性检查至关重要,忽略依赖会导致项目失败、返工等问题;
- 现代软件系统需求具有数量大、复杂度高、自然语言描述模糊、持续变更的特点,人工检测依赖低效且易出错;
- 现有需求依赖检测方法各有局限:
- 检索类:仅支持成对分类,依赖固定表征,无法融入领域上下文;
- 知识类:基于本体/图构建领域知识,开发和维护成本极高;
- 机器学习类:依赖大规模高质量标注数据,且难以处理'无依赖类占比过高'的类别不平衡问题;
- 大语言模型(LLM)在自然语言处理、推理方面能力突出,已成功应用于需求工程的启发、分类等任务,但在需求依赖检测方向的研究仍处于空白。
二、核心方法:LEREDD(LLM-Enabled REquirement Dependency Detection)
LEREDD 是一款融合检索增强生成(RAG)和上下文学习(ICL)的 LLM 基需求依赖自动检测方法,可直接从自然语言需求中识别多类型依赖,核心设计如下:
- 输入输出:输入为软件需求规格(SRS)文档和标注需求对数据集;输出为每对需求的依赖类型预测(含无依赖)、置信度(0-5 分李克特量表)、推理理由;
- 两大核心阶段:
- 知识检索阶段:包含上下文检索(通过 RAG 从 SRS 中提取 10 个语义最相似的 500 字符块,提供领域上下文)和动态示例检索(通过 ICL 为每类依赖/无依赖检索 4 个相似示例,用 SBERT 生成嵌入,通过欧氏相似度计算并采用最大相似度聚合公式);
- 依赖推理阶段:选用 GPT-4.1 作为核心模型,提示词结构化设计(领域背景 + 需求对 +7 类依赖正式定义 + 检索的上下文 + 示例),要求模型进行自反思以减少幻觉;
- 支持的 7 类依赖类型:为工业场景定制,涵盖 Requires、Implements、Conflicts、Contradicts、Details、Is similar、Is a variant,其中 Implements 为针对工业合作方需求新增类型。
三、实证实验设计
为验证 LEREDD 的性能,设计 4 个递进式研究问题(RQ1-RQ4),并完成数据集构建、基线选择、指标定义等工作,具体如下:
- 研究问题:
- RQ1:哪款 SOTA LLM 在需求依赖检测中表现最优?
- RQ2:需求依赖检测的最优提示策略是什么?
- RQ3:LEREDD 在数据集内与 SOTA 基线的对比性能如何?
- RQ4:LEREDD 在跨数据集(更贴近工业实际)与 SOTA 基线的对比性能如何?
- 数据集构建
- 数据源:3 个汽车领域 SRS 文档(ADB/自适应远光灯、TJA/交通拥堵辅助、APA/自动泊车辅助),提取 40/25/50 条需求;
- 标注:2 名 5 年以上经验的需求工程师独立标注,按语义相似度排序优先标注,最终得到 813 个标注需求对,Cohen's kappa=0.43(中等一致性),分歧通过共识解决;
- 依赖类型分布:无依赖类占比最高(642/813),Requires 类次之(95/813),具体分布如下表:
依赖类型 ADB TJA APA 总计 Conflicts 14 - 4 18 Details 18 2 1 21 Implements 17 10 3 30 Is similar 3 1 3 7 Requires 32 18 45 95 No Dependency 329 169 144 642 单系统标注总数 413 200 200 813
- 对比模型与基线
- 4 款 LLM:覆盖闭源/开源,包括 GPT-4.1、Llama 3.1、Gemma 20B、Mistral 7B;
- 2 款 SOTA 基线:基于检索的 TF-IDF&LSA、基于机器学习的微调 BERT,排除本体类基线(构建成本高、可扩展性差);
- 评估指标:采用宏平均的准确率(Acc)、精确率(P)、召回率(R)、F1 分数,避免类别不平衡导致的指标偏差,所有 LLM 实验温度设为 0 以保证结果可复现。
四、核心实验结果
各研究问题的验证结果均证明 LEREDD 的优越性,关键数字和结论如下:
- RQ1(LLM 零样本性能)
- GPT-4.1 为最优模型,无依赖类平均 F1 达 0.87,但细粒度依赖检测性能差,整体平均 F1 仅 0.39;
- 开源 LLM(Llama 3.1/Gemma 20B/Mistral 7B)性能更低且波动大,对细粒度依赖(如 Implements)的 F1 近乎为 0;
- 所有模型对无依赖类检测效果最优,因该类语义分离更清晰。
- RQ2(最优提示策略)
- 经 216 次少样本实验 +24 次 RAG 实验,确定最优提示策略:SBERT 嵌入 + 欧氏距离 + 最大相似度聚合 + 每类 4 个示例,结合 10 个 500 字符的 RAG 分块;
- 该策略相对零样本 GPT-4.1,无依赖/Requires/Implements 类 F1 分别提升 5.56%/34.62%/81.82%,达 0.95/0.70/0.70;
- 少样本关键结论:3-5 个示例即可达最优性能,检索质量优于数量;RAG 关键结论:适度分块可平衡上下文覆盖与噪声,全文档引入过多噪声。
- RQ3(数据集内与基线对比)
- LEREDD 取得平均准确率 0.9266、F1 分数 0.8433,无依赖类 F1 达 0.96;
- 对最难的 Requires 依赖,F1 相对 TF-IDF&LSA/微调 BERT 平均提升 94.87%/105.41%;
- 相比基线,LEREDD 性能更稳定,微调 BERT 在 TJA 数据集的准确率从 0.82 骤降至 0.37,而 LEREDD 始终高于 0.89。
- RQ4(跨数据集与基线对比)
- LEREDD 展现强鲁棒性,平均准确率仅下降 1.61%,F1 下降 9.52%,仍保持 0.915 的准确率和 0.76 的 F1;
- Requires 依赖 F1 相对 TF-IDF&LSA/微调 BERT 提升 112.12%/218.18%,无依赖类 F1 达 0.95;
- 微调 BERT 跨数据集性能大幅下降,Requires 类 F1 从 0.52 降至 0.31,因 ML 模型高度依赖训练/测试数据的相似性。
五、关键发现与讨论
- 零样本 LLM 无法满足工业级需求依赖检测,仅能可靠识别无依赖类,细粒度依赖检测需领域上下文和任务特定指导;
- LEREDD 的无依赖类高准确率(0.96)具有极高实用价值,因无依赖类占比超 79%,可大幅过滤无效需求对,减少人工工作量;
- 计算效率:LEREDD 平均耗时 1 分 48 秒,优于微调 BERT(4 分 03 秒),略逊于 TF-IDF&LSA(2.48 秒),实现性能与效率的平衡;
- 检索与提示的核心原则:少样本中'单个高相关示例'优于'多个弱相关示例',RAG 中'检索精度'优于'检索数量'。
六、研究局限与未来工作
- 局限:数据集仅覆盖汽车领域,泛化性需验证;标注存在主观性;未检测间接/隐式需求依赖;
- 未来工作:将 LEREDD 扩展至间接/隐式依赖检测;研究依赖预测在需求演化的变更影响分析中的应用;将方法推广至其他领域。
七、研究核心贡献
- 首次提出融合 RAG+ICL 的 LLM 基需求依赖检测方法 LEREDD,支持 7 类依赖检测并输出推理理由和置信度;
- 构建并开源 813 个标注需求对的数据集,填补了需求依赖检测领域公共数据集的空白;
- 系统验证了多款 LLM 在需求依赖检测的性能,确定了最优提示策略,为 LLM 在需求工程的应用提供参考;
- 从数据集内/跨数据集两个维度,证明 LEREDD 显著优于 SOTA 基线,且具有强鲁棒性,适合工业实际场景。
关键问题
问题 1(方法设计类):LEREDD 融合 RAG 和 ICL 的核心设计思路是什么,二者分别在需求依赖检测中发挥了什么作用?
答案:LEREDD 的核心设计思路是通过 RAG 提取领域特定上下文、ICL 检索任务特定相似示例,为 LLM 提供双重信息支撑,解决自然语言需求的模糊性和领域依赖性问题,弥补零样本 LLM 在细粒度依赖检测的不足。其中,RAG 的作用是从 SRS 文档中提取系统架构、组件定义等领域上下文,为依赖检测提供场景支撑(如明确术语含义),解决'无领域知识无法识别隐含依赖'的问题;ICL 的作用是为每类依赖/无依赖动态检索语义相似的标注示例,为 LLM 提供任务指导,帮助其学习细粒度依赖的判断标准,解决零样本 LLM 对小众依赖类型识别能力差的问题。
问题 2(实验性能类):LEREDD 相比传统 SOTA 基线(TF-IDF&LSA、微调 BERT),在需求依赖检测中的核心优势体现在哪些方面,关键量化指标是什么?
答案:LEREDD 相比传统基线的核心优势体现在检测精度更高、细粒度依赖识别能力更强、跨数据集鲁棒性更好、性能更稳定四个方面,关键量化指标如下:1)数据集内:平均准确率 0.9266、F1=0.8433,无依赖类 F1 达 0.96,Requires 依赖 F1 相对 TF-IDF&LSA/微调 BERT 平均提升 94.87%/105.41%;2)跨数据集:准确率仅下降 1.61%,Requires 依赖 F1 相对基线提升 112.12%/218.18%;3)稳定性:在 3 个汽车系统中准确率始终高于 0.89,而微调 BERT 在 TJA 数据集准确率从 0.82 骤降至 0.37。
问题 3(实践应用类):LEREDD 在工业实际的需求依赖分析中,具备哪些实用价值,其落地还需要解决哪些问题?
答案:实用价值:1)无依赖类 F1 达 0.96,可大幅过滤占比超 79% 的无依赖需求对,显著减少人工分析的工作量和时间成本;2)融合 RAG+ICL,无需大规模领域标注数据,适配工业场景中'目标系统无标注数据'的现状;3)输出推理理由和置信度,提升检测结果的可解释性,方便工程师审核和验证;4)检测效率优于微调 BERT,实现性能与效率的平衡,适合工业级大规模需求分析。落地待解决的问题:1)数据集仅覆盖汽车领域,需在金融、医疗等其他领域验证泛化性;2)目前仅检测直接依赖,需扩展至间接/隐式依赖检测,以覆盖工业场景的全部需求关系;3)需适配需求的持续变更特性,实现实时的依赖更新与检测;4)需开发可视化工具,将检测结果转化为直观的依赖图,方便工程师进行需求管理。


