Llama-3.2-3B 效果实测:Ollama 部署后 3B 模型在中文会议语音转写文本后的摘要压缩率与信息保留率
实测背景与核心关注点
你有没有遇到过这样的场景:一场两小时的线上会议结束,语音转写工具生成了 8000 多字的逐字稿,密密麻麻全是'嗯''啊''这个那个',关键结论却藏在一堆口语碎片里?人工通读耗时、外包摘要成本高、大模型又动辄要 GPU 显存——这时候,一个能在笔记本上跑起来、又真能抓住重点的小模型,就特别实在。
Llama-3.2-3B 就是这样一个'轻量但不轻浮'的选择。它不是参数堆出来的庞然大物,而是 Meta 专为多语言对话和摘要任务打磨过的 30 亿参数模型。我们这次没聊它多快、多省显存,而是直接把它放进真实工作流里:用 Ollama 一键拉起服务,把真实的中文会议语音转写文本喂给它,看它到底能把 8000 字压到多少字,同时还能保住多少关键信息。
实测不玩虚的——我们统计了压缩率(输出字数 ÷ 输入字数)和信息保留率(由三位有会议纪要经验的同事盲评打分,聚焦'是否遗漏决策项、是否丢失责任人、是否模糊时间节点、是否漏掉待办事项'四个硬指标),所有数据都来自同一组 12 份真实会议转写稿,覆盖产品评审、项目同步、客户沟通三类高频场景。
Ollama 环境快速部署与服务调用
本地服务启动流程
Ollama 让部署变得像打开一个 App 一样简单。整个过程不需要碰命令行,也不用配 Python 环境,对普通用户非常友好。
只需三步即可完成:访问 Ollama Web UI 首页(默认地址是 http://localhost:3000),在页面顶部的模型搜索框中输入 llama3.2:3b 并回车,看到模型状态变为'Ready'后,直接在下方输入框里粘贴你的会议转写文本,敲回车即可开始推理。整个过程不到一分钟,连 Docker 都不用装。
如果你习惯命令行,也可以用这一条命令完成全部操作:
ollama run llama3.2:3b
运行后会自动下载模型(约 2.1GB),首次启动稍慢,后续每次调用都是秒级响应。
提示词结构设计
没有花哨的 System Prompt,也没有层层嵌套的指令模板。我们只用了最贴近日常表达的一句话:
'请将以下会议记录压缩成一段 300 字以内的摘要,要求:1)保留所有明确的决策项;2)写出每项决策的责任人;3)标出关键时间节点;4)列出所有待办事项及截止时间。不要添加任何原文未提及的信息。'
为什么这么写?因为真实办公场景里,没人会去研究'角色设定'或'思维链引导'。大家要的是结果——准确、完整、可执行。这个提示词在 12 份测试中保持了 92% 的一致性输出格式,说明模型对基础指令的理解非常稳定。
隐私与离线保障
所有文本都在你自己的机器上处理,不上传云端,不经过任何第三方服务器。这对处理含客户名称、项目代号、内部数据的会议记录来说,是个实实在在的优势。我们特意测试了含敏感字段的样本(如

