Llama-3.2-3B 效果实测:Ollama 部署对比 Qwen2-1.5B 在摘要任务中的 BLEU 提升
1. 实测背景
在长文档摘要任务中,开源小模型常面临信息遗漏或内容啰嗦的问题。将 Llama-3.2-3B 和 Qwen2-1.5B 放在同一套 Ollama 环境里,用完全相同的测试集、提示词和评估方式跑了一轮摘要任务。
结果:Llama-3.2-3B 的 BLEU-4 分数比 Qwen2-1.5B 高出 6.8 分(从 32.1 到 38.9),而且生成内容更紧凑、事实一致性更强。整套流程不需要 GPU,不装 Docker,不用写一行训练代码,只靠 Ollama 一条命令就能启动服务。
本文介绍 Ollama 部署流程、摘要测试设计及 BLEU 评估方法。
2. Llama-3.2-3B 模型分析
2.1 模型定位
Llama-3.2-3B 是 Meta 最新发布的指令微调模型,名字里的'3.2'指它属于 Llama 3 系列中专为多语言实际任务优化的子代。和早期 Llama 3 相比,它在三个地方做了明显取舍:
- 不追求参数堆叠:3B 规模刚好卡在本地推理友好和能力平衡的临界点,比 7B 省 60% 显存,比 1B 多出近两倍的上下文理解能力;
- 摘要任务是核心训练目标之一:在 SFT 阶段,Meta 用了大量新闻摘要、论文摘要、会议纪要等真实语料做监督训练;RLHF 阶段则让标注员重点评估'是否保留原文关键实体''是否压缩冗余描述''是否维持逻辑顺序';
- 多语言不是噱头:支持中/英/法/西/德/意/葡/俄/日/韩/越/泰等 12 种语言的混合摘要,中文表现尤其稳定——测试集里混入了 30% 中英双语技术文档,它的 BLEU 下降不到 1.2 分。
2.2 与 Qwen2-1.5B 对比
| 对比维度 | Llama-3.2-3B | Qwen2-1.5B | 实测影响 |
|---|---|---|---|
| 关键信息召回率 | 92.3% | 78.6% | 摘要里漏掉'支持离线模式''兼容 iOS16+'等硬性条件的概率低 60% |
| 句子平均长度 | 18.4 字 | 24.7 字 | 同样内容,Llama 生成更紧凑,适合嵌入 UI 卡片或邮件标题 |
| 重复率(n-gram) | 11.2% | 23.8% | Qwen2 容易把'用户增长''用户留存''用户活跃'连用三次,Llama 会主动合并 |
| 中文标点规范度 | 98.1% | 86.4% | Qwen2 常把中文逗号写成英文逗号,Llama 严格遵循中文排版习惯 |
3. Ollama 一键部署
3.1 环境准备
Ollama 对新手最友好的地方,就是彻底屏蔽了环境配置。我用的是 Mac 系统,整个过程如下:
- 访问 ollama.com 下载安装包,双击完成安装(Windows 和 Linux 同理,官网提供对应版本);
- 打开终端,输入
ollama list,确认看到空列表(说明干净启动);
依次执行两条命令:
ollama pull llama3.2:3b ollama pull qwen2:1.5b
每条命令耗时约 3-5 分钟(取决于网络),下载完自动解压,无需手动干预。
注意:不要用
ollama run llama3.2:3b直接交互——那是给单次提问用的。我们要做批量测试,得启动 API 服务。

