Llama Factory 模型评估：如何科学衡量微调后的模型性能 | 极客日志

PythonAI算法

Llama Factory 模型评估：如何科学衡量微调后的模型性能

介绍微调后大语言模型的评估方法，涵盖指标选择、测试集构建及 LLaMA-Factory 实操。重点包括基础能力保留度、目标任务提升度及资源消耗变化三个维度。通过 MMLU、C-Eval 等基准验证通用能力，结合 BLEU、ROUGE 等指标评估生成质量。文章提供显存优化、结果波动处理等常见问题解决方案，强调评估应贯穿模型开发生命周期。

蜜桃汽水发布于 2026/4/5更新于 2026/5/2334 浏览

Llama Factory 模型评估：如何科学衡量微调后的模型性能

微调大语言模型后，核心问题在于如何科学评估其性能及与原始模型的差异。本文将从评估指标选择、测试集构建到实操演示，系统介绍模型评估方法。

此类任务通常需要 GPU 环境支持，可使用 Llama-Factory 等工具进行快速部署验证。下面将从评估指标选择、测试集构建到实操演示，带你系统掌握模型评估方法。

为什么需要专门的模型评估方法

微调后的模型性能评估不同于普通模型测试，我们需要关注三个核心维度：

基础能力保留度：微调是否损害了原始模型的通用能力
目标任务提升度：在特定任务上的性能改进
资源消耗变化：推理速度、显存占用等工程指标

传统准确率、F1 值等单一指标往往无法全面反映微调效果。以对话模型为例，可能出现：

在目标领域回答准确率提升
但通用知识问答能力下降
同时推理速度显著变慢

关键评估指标详解

1. 任务特定指标

根据你的微调目标选择专业评估指标：

# 文本分类任务常用指标
from sklearn.metrics import classification_report
print(classification_report(y_true, y_pred))

# 生成任务常用指标
import evaluate
bleu = evaluate.load("bleu")
rouge = evaluate.load("rouge")

常见指标对照表：

任务类型	推荐指标	说明
文本分类	Accuracy/F1/ROC-AUC	多分类需用 macro 平均
序列标注	Entity-level F1	需区分实体类型
文本生成	BLEU/ROUGE/BERTScore	人工评估仍不可替代
对话系统	Coherence/Engagement/Relevance	建议结合人工评分

2. 通用能力评估

使用标准测试集验证基础能力保留情况：

MMLU（大规模多任务语言理解）
C-Eval（中文综合评估基准）
Big-Bench（多样化推理任务）

# 使用 LLaMA-Factory 运行标准评估
python src/evaluate.py \
 --model_name_or_path your_finetuned_model \
 --eval_dataset mmlu \
 --batch_size 8

3. 资源效率指标

微调后需监控的关键工程指标：

推理延迟（P50/P95/P99）

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 测试集拆分示例
from sklearn.model_selection import train_test_split

# 保留 10% 作为人工验证集
train_val, test_human = train_test_split(data, test_size=0.1, random_state=42)

# 剩余 90% 再拆分
train, eval = train_test_split(train_val, test_size=0.2, random_state=42)

# 安装评估依赖
pip install -r requirements_eval.txt

# 运行综合评估
python src/evaluate.py \
 --model_name_or_path ./finetuned_model \
 --tasks mmlu,ceval,race \
 --batch_size 4 \
 --load_in_4bit \
 --output_dir ./eval_results

# custom_eval.py
from datasets import load_dataset
from transformers import pipeline

# 加载微调模型
pipe = pipeline("text-generation", model="your_finetuned_model")

# 加载测试集
dataset = load_dataset("your_dataset")["test"]

def evaluate_sample(example):
    output = pipe(example["prompt"])
    return {
        "bleu": calculate_bleu(example["reference"], output),
        "accuracy": check_fact(output)
    }

results = dataset.map(evaluate_sample)
print(results["bleu"].mean(), results["accuracy"].mean())

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_json("eval_results/all_results.json")

# 绘制指标对比图
df[["task", "accuracy"]].plot.bar(x="task")
plt.title("Accuracy Across Tasks")
plt.savefig("accuracy_comparison.png")

python src/evaluate.py \
 --load_in_4bit \
 --batch_size 2 \
 --gradient_checkpointing

import torch
import numpy as np
import random

def set_seed(seed):
    torch.manual_seed(seed)
    np.random.seed(seed)
    random.seed(seed)

# 自定义业务指标示例
def business_metric(output, reference):
    key_points = extract_key_points(reference)
    covered = 0
    for point in key_points:
        if point in output:
            covered += 1
    return covered / len(key_points)

Llama Factory 模型评估：如何科学衡量微调后的模型性能

Llama Factory 模型评估：如何科学衡量微调后的模型性能

为什么需要专门的模型评估方法

关键评估指标详解

1. 任务特定指标

2. 通用能力评估

3. 资源效率指标

更多推荐文章

相关免费在线工具

构建有效的测试集

使用 LLaMA-Factory 进行系统评估

1. 基础评估流程

2. 自定义评估指标

3. 结果分析与可视化

典型问题与解决方案

问题 1：评估时显存不足

问题 2：评估结果波动大

问题 3：指标与人工评估不一致

总结与下一步建议

更多推荐文章

相关免费在线工具

Llama Factory 模型评估：如何科学衡量微调后的模型性能

Llama Factory 模型评估：如何科学衡量微调后的模型性能

为什么需要专门的模型评估方法

关键评估指标详解

1. 任务特定指标

2. 通用能力评估

3. 资源效率指标

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

构建有效的测试集

使用 LLaMA-Factory 进行系统评估

1. 基础评估流程

2. 自定义评估指标

3. 结果分析与可视化

典型问题与解决方案

问题 1：评估时显存不足

问题 2：评估结果波动大

问题 3：指标与人工评估不一致

总结与下一步建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具