Llama-3.2-3B 实测：Ollama 本地部署中文会议摘要效果

1. 实测背景与核心关注点

你有没有遇到过这样的场景：一场两小时的线上会议结束，语音转写工具生成了 8000 多字的逐字稿，密密麻麻全是'嗯''啊''这个那个'，关键结论却藏在一堆口语碎片里？人工通读耗时、外包摘要成本高、大模型又动辄要 GPU 显存——这时候，一个能在笔记本上跑起来、又真能抓住重点的小模型，就特别实在。

Llama-3.2-3B 就是这样一个'轻量但不轻浮'的选择。它不是参数堆出来的庞然大物，而是 Meta 专为多语言对话和摘要任务打磨过的 30 亿参数模型。我们这次没聊它多快、多省显存，而是直接把它放进真实工作流里：用 Ollama 一键拉起服务，把真实的中文会议语音转写文本喂给它，看它到底能把 8000 字压到多少字，同时还能保住多少关键信息。

实测不玩虚的——我们统计了压缩率（输出字数 ÷ 输入字数）和信息保留率（由三位有会议纪要经验的同事盲评打分，聚焦'是否遗漏决策项、是否丢失责任人、是否模糊时间节点、是否漏掉待办事项'四个硬指标），所有数据都来自同一组 12 份真实会议转写稿，覆盖产品评审、项目同步、客户沟通三类高频场景。

2. Ollama 环境快速部署与服务调用

2.1 三步完成本地服务启动

Ollama 让部署变得像打开一个 App 一样简单。整个过程不需要碰命令行，也不用配 Python 环境，对普通用户非常友好：

访问 Ollama Web UI 首页（默认地址是 http://localhost:3000）
在页面顶部的模型搜索框中输入 llama3.2:3b，点击回车
看到模型状态变为'Ready'后，直接在下方输入框里粘贴你的会议转写文本，敲回车即可开始推理

整个过程不到一分钟，连 Docker 都不用装。如果你习惯命令行，也可以用这一条命令完成全部操作：

ollama run llama3.2:3b

运行后会自动下载模型（约 2.1GB），首次启动稍慢，后续每次调用都是秒级响应。

2.2 提示词设计遵循极简原则

没有花哨的 System Prompt，也没有层层嵌套的指令模板。我们只用了最贴近日常表达的一句话：

'请将以下会议记录压缩成一段 300 字以内的摘要，要求：1）保留所有明确的决策项；2）写出每项决策的责任人；3）标出关键时间节点；4）列出所有待办事项及截止时间。不要添加任何原文未提及的信息。'

为什么这么写？因为真实办公场景里，没人会去研究'角色设定'或'思维链引导'。大家要的是结果——准确、完整、可执行。这个提示词在 12 份测试中保持了 92% 的一致性输出格式，说明模型对基础指令的理解非常稳定。

2.3 推理过程完全离线，隐私有保障

所有文本都在你自己的机器上处理，不上传云端，不经过任何第三方服务器。这对处理含客户名称、项目代号、内部数据的会议记录来说，是个实实在在的优势。我们特意测试了含敏感字段的样本（如'XX 银行二期接口改造''张总监确认 Q3 上线'），模型既没泄露也没擅自改写，严格遵循'只压缩、不编造'的原则。

3. 中文会议文本摘要实测数据与分析

3.1 压缩率：从平均 7860 字压到 295 字，压缩率达 96.3%

我们收集了 12 份真实会议转写文本，长度分布在 6200–9100 字之间，平均 7860 字。每份都交由 Llama-3.2-3B 处理，要求输出控制在 300 字以内。实际结果如下：

会议类型	输入字数	输出字数	压缩率
产品评审会	7240	289	96.0%
项目周同步	8150	297	96.4%
客户需求沟通	6890	276

评估维度	平均得分	典型问题举例
决策项完整性	23.8 / 25	仅 1 份漏掉一项临时追加的流程调整
责任人准确性	24.2 / 25	2 份将'由前端组协同'误写为'由前端组主导'
时间节点清晰度	22.5 / 25	3 份将'下周三前'简化为'下周'，丢失具体日期
待办事项完备性	21.2 / 25	4 份遗漏 1–2 项口头提出的辅助任务（如'整理会议截图'）

指标	Llama-3.2-3B	Llama-3.1-8B	差距
平均输出字数	295	302	+2.4%
决策项完整率	99.2%	99.6%	-0.4%
责任人准确率	96.8%	97.1%	-0.3%
单次推理耗时（CPU）	18.3s	29.7s	快 62%
内存占用峰值	3.2GB	5.8GB	少 45%

Llama-3.2-3B 实测：Ollama 本地部署中文会议摘要效果