Llama3 中文微调模型评测：基础与主观能力对比分析

简介

随着 Llama3 的发布，业界越来越多的针对其中文能力的微调版本也不断涌现。本文基于 ModelScope 魔搭社区搜集到的几款受欢迎的 Llama3 中文版本模型，从多个维度评测其对齐后的中文能力，并分析微调后是否产生了灾难性遗忘问题。

模型列表

本次评测选取了以下四款模型进行对比：

Meta-Llama-3-8B-Instruct
- 描述：原生 Llama3 8B 模型，作为基准对照。
Llama3_Chinese_Sft
- 描述：基于 170k+ 高质量多轮中文对话数据微调的模型（base model + 中文 sft 数据）。
- 训练数据分布：参考相关数据集链接。
Llama3-Chinese-8B-Instruct-Agent-v1
- 描述：使用 Llama3-8b-instruct 基模型训练，适配中文通用场景，支持 ReACT 格式的 Agent 调用。
- 训练数据：包含中国传统知识、豆瓣、弱智吧、知乎等中文互联网信息，混合了魔搭通用 Agent 训练数据集、ms-bench 和 alpaca-en 等数据。
OpenBuddy openbuddy-llama3-8b-v21.1-8k
- 描述：OpenBuddy 开源的一款 Llama3 中文微调版本模型。

基础能力评测

评测维度

我们从英文知识推理、中文学科考试、数理逻辑几个维度来评测 Llama3 中文微调模型的整体能力。

ARC (AI2 Reasoning Challenge)：英文知识推理数据集，包含从 3 年级到 9 年级的科学考试问题，分为 Easy 和 Challenge 两部分，主要评估模型的推理能力。
C-Eval：全面的中文基础模型评估套件，涵盖 52 个不同学科的 13948 个多项选择题，分为四个难度级别，用于评估模型的中文综合学科能力。
GSM8K：由人类作者创建的高质量小学数学单词问题数据集，包含 8.5K 问题，需要 2 到 8 个步骤解决，涉及基本算术运算，评估数理逻辑能力。

评测工具与设置

我们使用 Eval-Scope 评测工具执行任务。Eval-Scope 是一款轻量化的 LLM 评测工具，支持多种基准评测任务。

安装命令：

git clone https://github.com/modelscope/eval-scope
cd eval-scope
pip install -e .

实验设置： 在 C-Eval、ARC、GSM8K 这几个 benchmark 上，分别测试其中文学科能力、英文知识推理能力、英文数理逻辑能力。后两者着重评测几个中文版本微调模型的灾难性遗忘情况。

GSM8K 和 ARC 采用 0-shot。
C-Eval 采用 5-shot。
评价指标均为加权平均准确率。

评测命令示例：

python3 llmuses/run.py --model LLM-Research/Meta-Llama-3-8B-Instruct --template-type llama3 --datasets arc ceval gsm8k --dataset-args '{"gsm8k": {"few_shot_num": 0}}'

实验结果与分析

1. 中文能力增强

在中文学科测试 C-Eval 数据集上，相对于原生模型的效果，几个中文微调后的模型均有不同程度的轻微下降。导致这种情况的原因可能包括：

中文数据集分布与 C-Eval 差异较大，不包含或很少包含学科考试类的语料。

Llama3 中文微调模型评测：基础与主观能力对比分析

简介

模型列表

基础能力评测

评测维度

评测工具与设置

实验结果与分析

1. 中文能力增强

更多推荐文章

相关免费在线工具

2. 知识灾难性遗忘

3. 中文 Agent 能力

主观能力评测

评测框架

实验设置

实验结果解读

深度分析与建议

更多推荐文章

相关免费在线工具

Llama3 中文微调模型评测：基础与主观能力对比分析

简介

模型列表

基础能力评测

评测维度

评测工具与设置

实验结果与分析

1. 中文能力增强

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 知识灾难性遗忘

3. 中文 Agent 能力

主观能力评测

评测框架

实验设置

实验结果解读

深度分析与建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具