论文核心内容
论文信息
- 原标题: Automating the Detection of Requirement Dependencies Using Large Language Models
- 主要作者: Ikram Darif, Feifei Niu, Manel Abdellatif, Lionel C. Briand, Ramesh S, Arun Adiththan
- 研究机构: 加拿大渥太华大学、加拿大蒙特利尔高等技术学院、爱尔兰利默里克大学 Lero 软件研究中心、美国通用汽车公司
- 引文格式: DARIF I, NIU F, ABDELLATIF M, et al. Automating the Detection of Requirement Dependencies Using Large Language Models[J/OL]. arXiv:2602.22456v1 [cs.SE], 2026[2026-02-28]. https://arxiv.org/abs/2602.22456v1.
一句话总结
本文提出 LEREDD,一种基于大语言模型、融合检索增强生成(RAG)和上下文学习(ICL)的需求依赖自动检测方法,针对自然语言需求的模糊性、数量大等问题,能识别 7 类需求依赖类型并输出预测理由和置信度;研究在包含 813 个需求对的汽车领域标注数据集上,对比 GPT-4.1 等 4 款 LLM 及 TF-IDF&LSA、微调 BERT 两款基线方法,经零样本、少样本+RAG 等实验验证,LEREDD 取得 0.93 的准确率和 0.84 的 F1 分数,无依赖类 F1 达 0.96,Requires 依赖 F1 相对基线平均提升 94.87% 和 105.41%,跨数据集实验也展现出强鲁棒性,同时研究开源了标注数据集,为相关研究提供支撑,还指出零样本 LLM 在细粒度依赖检测的局限性,确定了 LEREDD 的最优提示策略。
详细总结
一、研究背景与现存问题
- 需求作为软件开发的核心工件,其相互依赖关系对开发决策、变更影响分析、一致性检查至关重要,忽略依赖会导致项目失败、返工等问题;
- 现代软件系统需求具有数量大、复杂度高、自然语言描述模糊、持续变更的特点,人工检测依赖低效且易出错;
- 现有需求依赖检测方法各有局限:
- 检索类:仅支持成对分类,依赖固定表征,无法融入领域上下文;
- 知识类:基于本体/图构建领域知识,开发和维护成本极高;
- 机器学习类:依赖大规模高质量标注数据,且难以处理'无依赖类占比过高'的类别不平衡问题;
- 大语言模型(LLM)在自然语言处理、推理方面能力突出,已成功应用于需求工程的启发、分类等任务,但在需求依赖检测方向的研究仍处于空白。
二、核心方法:LEREDD(LLM-Enabled REquirement Dependency Detection)
LEREDD 是一款融合检索增强生成(RAG)和上下文学习(ICL)的 LLM 基需求依赖自动检测方法,可直接从自然语言需求中识别多类型依赖,核心设计如下:
- 输入输出:输入为软件需求规格(SRS)文档和标注需求对数据集;输出为每对需求的依赖类型预测(含无依赖)、置信度(0-5 分李克特量表)、推理理由;
- 两大核心阶段:
- 知识检索阶段:包含上下文检索(通过 RAG 从 SRS 中提取 10 个语义最相似的 500 字符块,提供领域上下文)和动态示例检索(通过 ICL 为每类依赖/无依赖检索 4 个相似示例,用 SBERT 生成嵌入,通过欧氏相似度计算并采用最大相似度聚合公式);
- 依赖推理阶段:选用 GPT-4.1 作为核心模型,提示词结构化设计(领域背景 + 需求对 +7 类依赖正式定义 + 检索的上下文 + 示例),要求模型进行自反思以减少幻觉;
- 支持的 7 类依赖类型:为工业场景定制,涵盖 Requires、Implements、Conflicts、Contradicts、Details、Is similar、Is a variant,其中 Implements 为针对工业合作方需求新增类型。
三、实证实验设计
为验证 LEREDD 的性能,设计 4 个递进式研究问题(RQ1-RQ4),并完成数据集构建、基线选择、指标定义等工作,具体如下:


