用 Self-Instruct 生成微调数据，让开源模型学会写测试用例

背景

大语言模型（LLM）在很多通用任务上已经表现不错，但一到垂直领域，比如软件测试，就容易露怯——术语乱用、用例结构不合理、关键步骤漏掉。我们想基于开源模型定制一个能生成渠道业务测试用例的模型，第一步就是指令微调。

指令微调本身不新鲜，真正头疼的是数据：手工写几百上千条高质量的测试指令，又慢又贵，而且一个人写来写去很容易重复，影响泛化能力。样本少了，模型学不到东西；质量差了，反而学歪。

调研了一圈，最终选了 Self-Instruct：从少量种子指令出发，用大模型自己生成更多的指令数据，再清洗一遍，拿去微调。下面记一下我们怎么落地的，顺便聊聊踩过的坑。

Self-Instruct 思路

Self-Instruct 本质上是一个半自动数据增强流程。流程官方分了六步，我们实际跑的时候简化了不少：

手工写一小撮种子任务，覆盖测试的几个核心方向；
把种子丢给大模型，让它模仿着生成新的指令；
对生成的指令做简单去重过滤；
为每条指令再调用大模型生成配套的输入输出例子；
人工抽检，剔除明显跑偏的；
把处理好的数据集喂给开源模型，用 LLaMA Factory 做微调。

省掉了原始论文里的分类任务识别和复杂相似度计算，因为初期快速验证更重要。

Self-Instruct 流程

从种子到数据集

种子指令

一开始我们写了 10 条左右的种子指令，全部围绕软件测试的基础概念和方法，比如'什么是回归测试''黑盒与白盒的区别''怎么设计一个登录功能的测试用例'。这些指令不追求面面俱到，但要能代表测试领域的常见问题类型。

种子指令示例
{"id": 1, "question": "什么是软件测试？为什么它对软件开发过程至关重要？"}
{"id": 2, "question": "请解释黑盒测试和白盒测试之间的区别。"}
{"id": 3, "question": "什么是回归测试？在什么情况下需要进行回归测试？"}
{"id": 4, "question": "请描述静态测试和动态测试的不同点。"}
{"id": 5, "question": "单元测试、集成测试、系统测试和验收测试有什么区别？"}
{"id": 6, "question": "什么是测试用例？请提供一个测试用例的例子。"}
{"id": 7, "question": "测试人员在进行性能测试时需要关注哪些关键指标？"}
{"id": 8, "question": "请解释什么是缺陷生命周期，以及它通常包括哪些状态。"}
{"id": 9, "question": "什么是负载测试和压力测试？它们之间的区别是什么？"}
{"id": 10, "question": "请解释什么是边界值分析，并给出一个应用示例。"}

这些种子构成了指令分布的基础，后面生成的新指令会和它们采样后的样本一起作为上下文，喂给大模型。

指令生成

把种子指令和模型自己之前生成的指令混在一起，从里面随机抽 8 条（6 条人工、2 条机器生成的），拼进提示模板，调用 OpenAI 的 gpt-3.5-turbo 模型，一次性让它续写 10 条新的测试领域指令。

# 读取种子数据
with open("./data/seed/seed_question_%s.jsonl" % domain, "r", encoding=)  file:
    data = [json.loads(line)  line  file]


random_questions = random.sample(data, )


 os.path.exists(generate_tasks_file)  os.path.getsize(generate_tasks_file) != :
     (generate_tasks_file, , encoding=)  file:
        data = [json.loads(line)  line  file]
    random_questions.extend(random.sample(data, ))

num_example = ((random_questions))


question_prompt = question_prompt.replace(, domain).replace(, num_per_generate).replace(, num_example)
example = .join([ % (index + ) + question_dict[]  index, question_dict  (random_questions)])
prompt = question_prompt.replace(, example)
res = chat(prompt)


generate_questions_base = decode_res(res)

生成指令示例
{"id": 80, "question": "什么是边界测试？为什么在软件测试中执行边界测试很重要？"}
{"id": 81, "question": "什么是易用性测试？它如何帮助确保软件易用性和用户满意度？"}
{"id": 82, "question": "请解释一下什么是性能测试，它如何帮助评估软件的性能表现？"}
{"id": 83, "question": "什么是安全性测试？为什么软件安全性是至关重要的？"}
{"id": 84, "question": "什么是质量保证（QA）和质量控制（QC）？它们之间有何不同？"}
{"id": 85, "question": "什么是无缺陷测试？它如何帮助提高软件的质量？"}
{"id": 86, "question": "什么是回归测试套件？它的作用是什么？"}
{"id": 87, "question": "什么是冲刺演示测试？为什么在敏捷开发中执行冲刺演示测试很重要？"}
{"id": 88, "question": "什么是边界值分析法，它在软件测试中的作用是什么？"}
{"id": 89, "question": "请解释一下什么是黑盒测试和白盒测试，它们之间有什么区别？"}
{"id": 90, "question": "在软件测试中，什么是冒烟测试，它的主要目的是什么？"}

完整 Alpaca 样例
{"instruction": "什么是边界测试？为什么在软件测试中执行边界测试很重要？", "input": "", "output": "边界测试是在输入值的边界条件上进行测试的一种方法。它涉及检查输入的最大和最小值，以及接受的范围边界。在软件测试中执行边界测试很重要，因为边界处的错误往往最容易出现。通过测试边界条件，可以发现潜在的边界问题，确保软件在极端情况下也能正常工作，提高软件的健壮性和质量。"}
{"instruction": "什么是易用性测试？它如何帮助确保软件易用性和用户满意度？", "input": "", "output": "易用性测试是评估软件界面、功能和交互设计是否符合用户需求、易于理解和操作的过程。它通过模拟用户场景和行为，检查软件的可用性和用户体验，以发现并解决潜在的用户界面问题。\n\n易用性测试有助于确保软件易用性和用户满意度的几个方面：\n1. 发现问题：通过模拟真实用户行为，易用性测试可以发现用户在使用软件时可能遇到的困难和挑战，如不直观的界面设计、操作流程复杂等。\n2. 优化设计：根据测试结果，开发团队可以对软件界面和功能进行调整和优化，以提高用户体验和满意度。\n3. 提高用户参与度：易用性测试有助于增强用户对软件的信任感和使用意愿，从而提高用户参与度和留存率。\n4. 降低支持成本：通过改善软件的易用性，减少了用户因使用问题而产生的支持和培训成本，提高了软件的整体经济效益。\n\n总之，易用性测试是确保软件能够满足用户需求、提高用户体验和满意度的关键步骤之一。"}
{"instruction": "请解释一下什么是性能测试，它如何帮助评估软件的性能表现？", "input": "", "output": "性能测试是评估软件系统在各种条件下的响应速度、吞吐量、稳定性和可扩展性的过程。它通过模拟真实环境中的用户活动来检查系统在负载下的表现。性能测试有助于识别系统的瓶颈和性能瓶颈，并提供数据以优化系统性能和资源利用率。通过性能测试，开发人员和测试人员可以确保软件在生产环境中能够承受预期的工作负载，并且能够满足用户的性能需求和期望。"}
{"instruction": "什么是安全性测试？为什么软件安全性是至关重要的？", "input": "", "output": "安全性测试是评估软件系统在保护数据、功能和服务免受未经授权访问、修改或损坏的能力。它涉及检查软件是否易受黑客、病毒、恶意软件等攻击，并确保符合安全标准和法规。\n\n软件安全性至关重要，因为：\n1. 保护数据：避免敏感信息泄露，如个人身份信息、财务数据等，维护用户隐私。\n2. 维护信任：用户只信任能够确保其数据安全的软件，安全漏洞可能导致信任丧失，损害品牌声誉。\n3. 遵守法规：许多行业都有严格的安全法规要求，如 GDPR、HIPAA 等，违反可能导致法律责任和罚款。\n4. 防止服务中断：安全漏洞可能导致系统故障、服务中断，影响业务连续性和用户体验。\n5. 减少损失：避免数据被盗、篡改、破坏等可能带来的经济损失和声誉损害。"}
{"instruction": "什么是质量保证（QA）和质量控制（QC）？它们之间有何不同？", "input": "", "output": "质量保证（QA）是一系列过程和活动，旨在确保产品或服务符合预期质量标准。它涉及制定质量标准、制定流程规范、培训人员等。质量控制（QC）是针对已生产的产品或服务进行检查和测试，以确保其符合质量标准。QA 注重预防，QC 注重检测与纠正。QA 是过程导向的，而 QC 是产品导向的。"}

完整 Alpaca 样例

{"instruction": "什么是边界测试？为什么在软件测试中执行边界测试很重要？", "input": "", "output": "边界测试是在输入值的边界条件上进行测试的一种方法。它涉及检查输入的最大和最小值，以及接受的范围边界。在软件测试中执行边界测试很重要，因为边界处的错误往往最容易出现。通过测试边界条件，可以发现潜在的边界问题，确保软件在极端情况下也能正常工作，提高软件的健壮性和质量。"}

{"instruction": "什么是易用性测试？它如何帮助确保软件易用性和用户满意度？", "input": "", "output": "易用性测试是评估软件界面、功能和交互设计是否符合用户需求、易于理解和操作的过程。它通过模拟用户场景和行为，检查软件的可用性和用户体验，以发现并解决潜在的用户界面问题。\n\n易用性测试有助于确保软件易用性和用户满意度的几个方面：\n1. 发现问题：通过模拟真实用户行为，易用性测试可以发现用户在使用软件时可能遇到的困难和挑战，如不直观的界面设计、操作流程复杂等。\n2. 优化设计：根据测试结果，开发团队可以对软件界面和功能进行调整和优化，以提高用户体验和满意度。\n3. 提高用户参与度：易用性测试有助于增强用户对软件的信任感和使用意愿，从而提高用户参与度和留存率。\n4. 降低支持成本：通过改善软件的易用性，减少了用户因使用问题而产生的支持和培训成本，提高了软件的整体经济效益。\n\n总之，易用性测试是确保软件能够满足用户需求、提高用户体验和满意度的关键步骤之一。"}

{"instruction": "请解释一下什么是性能测试，它如何帮助评估软件的性能表现？", "input": "", "output": "性能测试是评估软件系统在各种条件下的响应速度、吞吐量、稳定性和可扩展性的过程。它通过模拟真实环境中的用户活动来检查系统在负载下的表现。性能测试有助于识别系统的瓶颈和性能瓶颈，并提供数据以优化系统性能和资源利用率。通过性能测试，开发人员和测试人员可以确保软件在生产环境中能够承受预期的工作负载，并且能够满足用户的性能需求和期望。"}

{"instruction": "什么是安全性测试？为什么软件安全性是至关重要的？", "input": "", "output": "安全性测试是评估软件系统在保护数据、功能和服务免受未经授权访问、修改或损坏的能力。它涉及检查软件是否易受黑客、病毒、恶意软件等攻击，并确保符合安全标准和法规。\n\n软件安全性至关重要，因为：\n1. 保护数据：避免敏感信息泄露，如个人身份信息、财务数据等，维护用户隐私。\n2. 维护信任：用户只信任能够确保其数据安全的软件，安全漏洞可能导致信任丧失，损害品牌声誉。\n3. 遵守法规：许多行业都有严格的安全法规要求，如 GDPR、HIPAA 等，违反可能导致法律责任和罚款。\n4. 防止服务中断：安全漏洞可能导致系统故障、服务中断，影响业务连续性和用户体验。\n5. 减少损失：避免数据被盗、篡改、破坏等可能带来的经济损失和声誉损害。"}

{"instruction": "什么是质量保证（QA）和质量控制（QC）？它们之间有何不同？", "input": "", "output": "质量保证（QA）是一系列过程和活动，旨在确保产品或服务符合预期质量标准。它涉及制定质量标准、制定流程规范、培训人员等。质量控制（QC）是针对已生产的产品或服务进行检查和测试，以确保其符合质量标准。QA 注重预防，QC 注重检测与纠正。QA 是过程导向的，而 QC 是产品导向的。"}

用 Self-Instruct 生成微调数据，让开源模型学会写测试用例

背景

Self-Instruct 思路

从种子到数据集

种子指令

指令生成

更多推荐文章

相关免费在线工具

过滤与输入输出生成

微调与评估

环境与工具

微调与初步效果

小结

更多推荐文章

相关免费在线工具

用 Self-Instruct 生成微调数据，让开源模型学会写测试用例

背景

Self-Instruct 思路

从种子到数据集

种子指令

指令生成

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

过滤与输入输出生成

微调与评估

环境与工具

微调与初步效果

小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具