Ollama 的推理核心其实源自 llama.cpp,连 GGUF 格式也是该项目的作者开发的。最近 llama.cpp 迎来了重大更新,正式内置了 Web UI。经过安装部署和自行打包测试,我发现它在某些场景下比 Ollama 更加便捷。
官方介绍的优势包括完全免费开源、社区驱动、全硬件支持、高级上下文缓存、隐私保护等。这些特性对于追求本地化部署的用户来说非常有吸引力。
安装与启动
建议通过命令行直接安装,方便后续管理:
# Windows (使用 Winget)
winget install llama.cpp
# Mac and Linux (使用 Homebrew)
brew install llama.cpp
启动服务时,为了快速测试,我调用了 Qwen2.5 的 0.5B 版本:
llama-server -hf Qwen/Qwen2.5-0.5B-Instruct-GGUF --jinja -c 0 --host 127.0.0.1 --port 8033
量化后的模型文件不到 500Mb,默认选择 q4_k_m 量化方式。浏览器打开对应地址即可进入界面。
性能表现
实测中,Qwen2.5 0.5B 版本的生成速度达到了 97 tokens/s,而对比 Ollama 同配置下的 82 tokens/s,llama.cpp 在推理速度上确实有优势。




功能体验
除了基础的对话,Web UI 还集成了不少实用功能:
- 多文件上下文:支持从磁盘或剪贴板添加多个文本文件到对话上下文中。
- PDF 处理:可将 PDF 附件转换为纯文本,或在模型支持视觉输入时作为图像解析。
- 图片插入:当 AI 模型具备视觉能力时,可在对话中插入图片并与文本上下文结合。
- 数学渲染:支持渲染数学表达式。
- 对话管理:提供 Import/Export 选项直接管理私人对话。
- 移动端适配:新的 Web UI 对移动设备友好。
此外还支持 URL 参数传递输入、分支对话编辑、并行图像处理以及自定义 JSON 模式约束输出等功能。




