简介
随着 Llama3 的发布,业界越来越多的针对其中文能力的微调版本也不断涌现。本文基于 ModelScope 魔搭社区搜集到的几款受欢迎的 Llama3 中文版本模型,从多个维度评测其对齐后的中文能力,并分析微调后是否产生了灾难性遗忘问题。
模型列表
本次评测选取了以下四款模型进行对比:
- Meta-Llama-3-8B-Instruct
- 描述:原生 Llama3 8B 模型,作为基准对照。
- Llama3_Chinese_Sft
- 描述:基于 170k+ 高质量多轮中文对话数据微调的模型(base model + 中文 sft 数据)。
- 训练数据分布:参考相关数据集链接。
- Llama3-Chinese-8B-Instruct-Agent-v1
- 描述:使用 Llama3-8b-instruct 基模型训练,适配中文通用场景,支持 ReACT 格式的 Agent 调用。
- 训练数据:包含中国传统知识、豆瓣、弱智吧、知乎等中文互联网信息,混合了魔搭通用 Agent 训练数据集、ms-bench 和 alpaca-en 等数据。
- OpenBuddy openbuddy-llama3-8b-v21.1-8k
- 描述:OpenBuddy 开源的一款 Llama3 中文微调版本模型。
基础能力评测
评测维度
我们从英文知识推理、中文学科考试、数理逻辑几个维度来评测 Llama3 中文微调模型的整体能力。
- ARC (AI2 Reasoning Challenge):英文知识推理数据集,包含从 3 年级到 9 年级的科学考试问题,分为 Easy 和 Challenge 两部分,主要评估模型的推理能力。
- C-Eval:全面的中文基础模型评估套件,涵盖 52 个不同学科的 13948 个多项选择题,分为四个难度级别,用于评估模型的中文综合学科能力。
- GSM8K:由人类作者创建的高质量小学数学单词问题数据集,包含 8.5K 问题,需要 2 到 8 个步骤解决,涉及基本算术运算,评估数理逻辑能力。
评测工具与设置
我们使用 Eval-Scope 评测工具执行任务。Eval-Scope 是一款轻量化的 LLM 评测工具,支持多种基准评测任务。
安装命令:
git clone https://github.com/modelscope/eval-scope
cd eval-scope
pip install -e .
实验设置: 在 C-Eval、ARC、GSM8K 这几个 benchmark 上,分别测试其中文学科能力、英文知识推理能力、英文数理逻辑能力。后两者着重评测几个中文版本微调模型的灾难性遗忘情况。
- GSM8K 和 ARC 采用 0-shot。
- C-Eval 采用 5-shot。
- 评价指标均为加权平均准确率。
评测命令示例:
python3 llmuses/run.py --model LLM-Research/Meta-Llama-3-8B-Instruct --template-type llama3 --datasets arc ceval gsm8k --dataset-args '{"gsm8k": {"few_shot_num": 0}}'
实验结果与分析
1. 中文能力增强
在中文学科测试 C-Eval 数据集上,相对于原生模型的效果,几个中文微调后的模型均有不同程度的轻微下降。导致这种情况的原因可能包括:
- 中文数据集分布与 C-Eval 差异较大,不包含或很少包含学科考试类的语料。


