Llama Factory 模型评估:如何科学衡量微调后的模型性能
微调大语言模型后,核心问题在于如何科学评估其性能及与原始模型的差异。本文将从评估指标选择、测试集构建到实操演示,系统介绍模型评估方法。
此类任务通常需要 GPU 环境支持,可使用 Llama-Factory 等工具进行快速部署验证。下面将从评估指标选择、测试集构建到实操演示,带你系统掌握模型评估方法。
为什么需要专门的模型评估方法
微调后的模型性能评估不同于普通模型测试,我们需要关注三个核心维度:
- 基础能力保留度:微调是否损害了原始模型的通用能力
- 目标任务提升度:在特定任务上的性能改进
- 资源消耗变化:推理速度、显存占用等工程指标
传统准确率、F1 值等单一指标往往无法全面反映微调效果。以对话模型为例,可能出现:
- 在目标领域回答准确率提升
- 但通用知识问答能力下降
- 同时推理速度显著变慢
关键评估指标详解
1. 任务特定指标
根据你的微调目标选择专业评估指标:
# 文本分类任务常用指标
from sklearn.metrics import classification_report
print(classification_report(y_true, y_pred))
# 生成任务常用指标
import evaluate
bleu = evaluate.load("bleu")
rouge = evaluate.load("rouge")
常见指标对照表:
| 任务类型 | 推荐指标 | 说明 |
|---|---|---|
| 文本分类 | Accuracy/F1/ROC-AUC | 多分类需用 macro 平均 |
| 序列标注 | Entity-level F1 | 需区分实体类型 |
| 文本生成 | BLEU/ROUGE/BERTScore | 人工评估仍不可替代 |
| 对话系统 | Coherence/Engagement/Relevance | 建议结合人工评分 |
2. 通用能力评估
使用标准测试集验证基础能力保留情况:
- MMLU(大规模多任务语言理解)
- C-Eval(中文综合评估基准)
- Big-Bench(多样化推理任务)
# 使用 LLaMA-Factory 运行标准评估
python src/evaluate.py \
--model_name_or_path your_finetuned_model \
--eval_dataset mmlu \
--batch_size 8
3. 资源效率指标
微调后需监控的关键工程指标:
- 推理延迟(P50/P95/P99)

