Llama-3.2-3B 本地部署实测:中文会议文本摘要压缩与信息保留分析
1. 实测背景与核心关注点
你有没有遇到过这样的场景:一场两小时的线上会议结束,语音转写工具生成了 8000 多字的逐字稿,密密麻麻全是'嗯''啊''这个那个',关键结论却藏在一堆口语碎片里?人工通读耗时、外包摘要成本高、大模型又动辄要 GPU 显存——这时候,一个能在笔记本上跑起来、又真能抓住重点的小模型,就特别实在。
Llama-3.2-3B 就是这样一个'轻量但不轻浮'的选择。它不是参数堆出来的庞然大物,而是 Meta 专为多语言对话和摘要任务打磨过的 30 亿参数模型。我们这次没聊它多快、多省显存,而是直接把它放进真实工作流里:用 Ollama 一键拉起服务,把真实的中文会议语音转写文本喂给它,看它到底能把 8000 字压到多少字,同时还能保住多少关键信息。
实测不玩虚的——我们统计了压缩率(输出字数 ÷ 输入字数)和信息保留率(由三位有会议纪要经验的同事盲评打分,聚焦'是否遗漏决策项、是否丢失责任人、是否模糊时间节点、是否漏掉待办事项'四个硬指标),所有数据都来自同一组 12 份真实会议转写稿,覆盖产品评审、项目同步、客户沟通三类高频场景。
2. Ollama 环境快速部署与服务调用
2.1 三步完成本地服务启动
Ollama 让部署变得像打开一个 App 一样简单。整个过程不需要碰命令行,也不用配 Python 环境,对普通用户非常友好:
- 第一步:访问 Ollama Web UI 首页(默认地址是 http://localhost:3000)
- 第二步:在页面顶部的模型搜索框中输入
llama3.2:3b,点击回车 - 第三步:看到模型状态变为

