Ollama 背后执行推理的核心技术其实是由 llama.cpp 承担的,GGUF 模型格式也是由 llama.cpp 的作者所开发。
现在 llama.cpp 迎来重大更新,它也有了自己的 Web UI,我测试了安装部署和自行打包,很多地方确实比 Ollama 还有方便好用。
官方介绍,优势如下:
- 完全免费、开源且由社区驱动
- 在所有硬件上表现出色
- 高级上下文和前缀缓存
- 并行和远程用户支持
- 极其轻量级且内存高效
- 充满活力且富有创造力的社区
- 100% 隐私
使用之前需要先安装 llama.cpp server

我还是喜欢命令行直接安装
## Winget (Windows)
winget install llama.cpp
## Homebrew (Mac and Linux)
brew install llama.cpp
然后启动 UI,也是命令行,为了快速测试,我调用 Qwen2.5 的 0.5b
llama-server -hf Qwen/Qwen2.5-0.5B-Instruct-GGUF --jinja -c 0 --host 127.0.0.1 --port 8033
量化后模型文件来到不到 500Mb,我发现它默认选 q4_k_m

然后浏览器打开

随便问个问题,速度 97t/s
对比 Ollama 82t/s 的样子

其他功能也都挺实用
从磁盘或剪贴板添加多个文本文件到对话的上下文中













