简介
随着 Llama3 的发布,业界越来越多的针对其中文能力的微调版本也不断涌现。本文基于 ModelScope 魔搭社区搜集到的几款受欢迎的 Llama3 中文版本模型,从多个维度评测其对齐后的中文能力,并分析微调后是否产生了灾难性遗忘问题。
本文评测了多款 Llama3 中文微调模型的基础与主观能力。通过 ARC、C-Eval、GSM8K 基准测试及 AlignBench 主观对齐评估,发现中文微调模型显著提升了中文指令遵循能力,解决了原生模型中文回复不佳的问题。然而,部分模型在英文数理逻辑(GSM8K)和学科考试(C-Eval)上出现了不同程度的灾难性遗忘。评测显示,OpenBuddy 模型在综合得分上略优于原生模型,而 Agent 专用模型在工具调用方面表现突出。结论指出,微调需在数据配比和训练策略上进一步优化,以平衡中文能力与通用推理能力。

随着 Llama3 的发布,业界越来越多的针对其中文能力的微调版本也不断涌现。本文基于 ModelScope 魔搭社区搜集到的几款受欢迎的 Llama3 中文版本模型,从多个维度评测其对齐后的中文能力,并分析微调后是否产生了灾难性遗忘问题。
本次评测选取了以下四款模型进行对比:
我们从英文知识推理、中文学科考试、数理逻辑几个维度来评测 Llama3 中文微调模型的整体能力。
我们使用 Eval-Scope 评测工具执行任务。Eval-Scope 是一款轻量化的 LLM 评测工具,支持多种基准评测任务。
安装命令:
git clone https://github.com/modelscope/eval-scope
cd eval-scope
pip install -e .
实验设置: 在 C-Eval、ARC、GSM8K 这几个 benchmark 上,分别测试其中文学科能力、英文知识推理能力、英文数理逻辑能力。后两者着重评测几个中文版本微调模型的灾难性遗忘情况。
评测命令示例:
python3 llmuses/run.py --model LLM-Research/Meta-Llama-3-8B-Instruct --template-type llama3 --datasets arc ceval gsm8k --dataset-args '{"gsm8k": {"few_shot_num": 0}}'
在中文学科测试 C-Eval 数据集上,相对于原生模型的效果,几个中文微调后的模型均有不同程度的轻微下降。导致这种情况的原因可能包括:
但从主观使用感受来看,这些中文版模型基本都能正常回答中文指令,而不像原生模型那样常存在中文问题、英文回复的情况。
从 ARC-Challenge、GSM8K 这两个英文数据集来看,整体表现各不一样。
原因推测:
待测模型中,Llama3-Chinese-8B-Instruct-Agent-v1 模型针对 Agent 中文能力做了增强。从主观使用体验上来看,其已经具有初步的基于中文多轮交互的工具调用能力。例如天气查询和文生图场景,模型可以按照 system 要求对查询进行补全。
我们使用 AlignBench: 多维度中文对齐评测基准,来综合评价中文版 Llama3 模型在多个维度下的主观题表现。
AlignBench 是一个用于评估中文大语言模型对齐性能的全面、多维度的评测基准。其构建了人类参与的数据构建流程,来保证评测数据的动态更新。AlignBench 采用多维度、规则校准的模型评价方法(LLM-as-Judge),并且结合思维链(Chain-of-Thought)生成对模型回复的多维度分析和最终的综合评分。
涵盖任务类型: 基本任务、中文理解、综合问答、文本写作、逻辑推理、数学计算、角色扮演、专业能力。
1. 模型推理参数
2. AlignBench Judge-model 我们采用 ZhipuAI GLM4 模型服务,作为自动评测裁判员模型,来综合评价多个中文对齐后的 Llama3 8B 模型。依据 AlignBench 的多维度定义,作为裁判员模型的打分依据(每个维度得分范围均为 0~10):
以 Meta-Llama-3-8B-Instruct 原生模型为例,GLM4 作为裁判员模型参与评估。结果显示,原生的 Llama3 模型在回答'专业能力'问题时,直接采用英文作为回复。即便其英文回答跟答案相关,但从裁判员模型来看,该模型在'事实正确性'这个维度得分并不高,其在该题目上的综合评分也只有 3 分(10 分满分)。
相比之下,微调模型如 Llama3-Chinese-8B-Instruct-Agent-v1 虽然能输出中文,但在事实正确性上仍存在改进空间(例如调性标注错误)。综合得分显示,只有 OpenBuddy 模型略微超过原生模型,其它模型均不同程度出现了中文能力上的损失。
从主观、客观的实验结果来看,现有的 Llama3 中文版本在实际会话场景中,中文指令跟随能力相较于原生模型有了较大的改进(大部分场景下至少能说中文了)。但是在某些专项任务中,中文微调后的模型在多个维度能力指标出现了不同程度的下降。
技术洞察:
选型建议:
未来在数据覆盖、配比以及训练参数设置等环节仍需加强,以在保持中文能力的同时减少灾难性遗忘。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online