llama.cpp 新增 Web UI，本地大模型部署性能与体验升级 | 极客日志

C++AI算法

llama.cpp 新增 Web UI，本地大模型部署性能与体验升级

llama.cpp 迎来重大更新，内置 Web UI 界面，支持命令行快速安装与部署。实测显示其推理速度优于 Ollama，且具备上下文缓存、多文件/PDF/图片输入、数学公式渲染等功能。支持通过 pake 打包为桌面应用。相比 Ollama，llama.cpp 更轻量但模型下载依赖 HuggingFace，国内网络环境可能受限，暂不支持网络搜索和 MCP。适合追求隐私和性能的本地大模型部署场景。

魔法巫师发布于 2026/4/5更新于 2026/5/2338 浏览

Ollama 背后执行推理的核心技术其实是由 llama.cpp 承担的，GGUF 模型格式也是由 llama.cpp 的作者所开发。

现在 llama.cpp 迎来重大更新，它也有了自己的 Web UI，我测试了安装部署和自行打包，很多地方确实比 Ollama 还有方便好用。

官方介绍，优势如下：

完全免费、开源且由社区驱动
在所有硬件上表现出色
高级上下文和前缀缓存
并行和远程用户支持
极其轻量级且内存高效
充满活力且富有创造力的社区
100% 隐私

使用之前需要先安装 llama.cpp server

llama.cpp Server

我还是喜欢命令行直接安装

## Winget (Windows)
winget install llama.cpp

## Homebrew (Mac and Linux)
brew install llama.cpp

然后启动 UI，也是命令行，为了快速测试，我调用 Qwen2.5 的 0.5b

llama-server -hf Qwen/Qwen2.5-0.5B-Instruct-GGUF --jinja -c 0 --host 127.0.0.1 --port 8033

量化后模型文件来到不到 500Mb，我发现它默认选 q4_k_m

Model Info

然后浏览器打开

Web UI

随便问个问题，速度 97t/s

对比 Ollama 82t/s 的样子

Speed Comparison

其他功能也都挺实用

从磁盘或剪贴板添加多个文本文件到对话的上下文中

Text Context

llama.cpp 新增 Web UI，本地大模型部署性能与体验升级

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

llama.cpp 新增 Web UI，本地大模型部署性能与体验升级

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具