Llama-3.2-3B 本地部署实测：中文会议文本摘要压缩与信息保留分析

1. 实测背景与核心关注点

你有没有遇到过这样的场景：一场两小时的线上会议结束，语音转写工具生成了 8000 多字的逐字稿，密密麻麻全是'嗯''啊''这个那个'，关键结论却藏在一堆口语碎片里？人工通读耗时、外包摘要成本高、大模型又动辄要 GPU 显存——这时候，一个能在笔记本上跑起来、又真能抓住重点的小模型，就特别实在。

Llama-3.2-3B 就是这样一个'轻量但不轻浮'的选择。它不是参数堆出来的庞然大物，而是 Meta 专为多语言对话和摘要任务打磨过的 30 亿参数模型。我们这次没聊它多快、多省显存，而是直接把它放进真实工作流里：用 Ollama 一键拉起服务，把真实的中文会议语音转写文本喂给它，看它到底能把 8000 字压到多少字，同时还能保住多少关键信息。

实测不玩虚的——我们统计了压缩率（输出字数 ÷ 输入字数）和信息保留率（由三位有会议纪要经验的同事盲评打分，聚焦'是否遗漏决策项、是否丢失责任人、是否模糊时间节点、是否漏掉待办事项'四个硬指标），所有数据都来自同一组 12 份真实会议转写稿，覆盖产品评审、项目同步、客户沟通三类高频场景。

2. Ollama 环境快速部署与服务调用

2.1 三步完成本地服务启动

Ollama 让部署变得像打开一个 App 一样简单。整个过程不需要碰命令行，也不用配 Python 环境，对普通用户非常友好：

第一步：访问 Ollama Web UI 首页（默认地址是 http://localhost:3000）
第二步：在页面顶部的模型搜索框中输入 llama3.2:3b，点击回车
第三步：看到模型状态变为

Llama-3.2-3B 本地部署实测：中文会议文本摘要压缩与信息保留分析