跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
C++AI算法

llama.cpp 重大更新:内置 Web UI,本地大模型部署新方案

llama.cpp 新增内置 Web UI,支持命令行安装与启动。实测 Qwen2.5-0.5B 模型推理速度 97t/s,优于 Ollama。功能涵盖多文件上下文、PDF/图片处理、数学渲染及移动端适配。可通过 pake 打包为 App。局限性在于仅支持浏览器访问、国内下载 HF 模型网络受限且暂不支持 MCP 与网络搜索。

战神发布于 2026/4/5更新于 2026/5/2232 浏览
llama.cpp 重大更新:内置 Web UI,本地大模型部署新方案

Ollama 背后执行推理的核心技术其实是由 llama.cpp 承担的,GGUF 模型格式也是由 llama.cpp 的作者所开发。

现在 llama.cpp 迎来重大更新,它也有了自己的 Web UI,我测试了安装部署和自行打包,很多地方确实比 Ollama 还有方便好用。

官方介绍,优势如下:

  • 完全免费、开源且由社区驱动
  • 在所有硬件上表现出色
  • 高级上下文和前缀缓存
  • 并行和远程用户支持
  • 极其轻量级且内存高效
  • 充满活力且富有创造力的社区
  • 100% 隐私

使用之前需要先安装 llama.cpp server

image

我还是喜欢命令行直接安装

# Winget (Windows)
winget install llama.cpp

# Homebrew (Mac and Linux)
brew install llama.cpp

然后启动 UI,也是命令行,为了快速测试,我调用 Qwen2.5 的 0.5b

llama-server -hf Qwen/Qwen2.5-0.5B-Instruct-GGUF --jinja -c 0 --host 127.0.0.1 --port 8033

量化后模型文件来到不到 500Mb,我发现它默认选 q4_k_m

image

然后浏览器打开

image

随便问个问题,速度 97t/s

对比 Ollama 82t/s 的样子

image

其他功能也都挺实用

从磁盘或剪贴板添加多个文本文件到对话的上下文中

image

将一个或多个 PDF 附件添加到对话中。默认情况下,PDF 的内容将被转换为纯文本,不包括任何视觉元素。

image

也可以在 AI 模型支持的情况下将 PDF 处理为图像。

image

当所选的 AI 模型具有视觉输入能力时,可以在对话中插入图片:

image

图片可以与文本上下文一起插入:

image

可以渲染数学表达式:

image

使用 Import/Export 选项直接管理私人对话:

image

新的 WebUI 对移动设备友好:

image

其他功能还有,比如:

  • 支持通过 URL 参数传递输入
  • 根据之前的讨论点编辑或重新生成消息以创建分支
  • 同时运行多个聊天对话
  • 并行图像处理
  • 支持嵌入式渲染生成的 HTML/JS 代码
  • 指定一个自定义的 JSON 模式以约束生成的输出到特定格式

目前硬伤是只能浏览器,想打包成 app 也可以,我使用的是 tw93 开发的 pake,一行命令即可,本地服务也可以打包成 app

image

然后它就将只能浏览器访问的 web 应用打包成 app 了

image

如此轻量舒服的应用,我与这位网友有相同的期待——支持其他模型的接入

image

总结来看,比之前想要挑战 ollama 的 Shimmy 要好很多,但是 Ollama 玩了这么久也不是吃素的 1、Ollama 有更加方便的 app,随时切换本地模型甚是方便 2、Ollama 还有免费云模型可以调用呢,deepseek-v3.1:671b-cloud 都敢给 3、网络问题,它目前只能支持 HF 下载模型,国内用户不友好 4、网络搜索和 MCP 也不支持

目录

  1. Winget (Windows)
  2. Homebrew (Mac and Linux)
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 基于 Qwen3Guard-Gen-WEB 的自动内容审核服务部署实践
  • 哈希集合巧解最长连续序列
  • OpenClaw 多 Agent 对接多个飞书机器人配置指南
  • 攻防世界 Web 题解:SQL 注入与文件包含漏洞分析
  • Pixel Couplet Gen 支持选择红晶/金块/像素蓝主色调生成春联
  • Python+Flask 宠物成长监管系统设计与实现
  • Spark 核心更新:Python UDF AST 转译与 K8s 突发内存感知机制
  • VSCode GitHub Copilot 配置 OpenAI 兼容自定义模型
  • 云电脑部署 DeepSeek 横向对比:ToDesk、顺网云与海马云性能测试
  • C++ string 类全面指南
  • C++微服务 UserServer 设计与实现
  • Java 后端 Web API 开发实战:从架构设计到部署监控
  • 找回 Edge 边栏中消失的 Copilot 图标
  • DeepSeek 结合通义万相制作 AI 视频实战指南
  • 2026 无人机 AI 算法全景:7 大场景与 50+ 核心算法
  • VSCode Copilot 聊天加载超时问题修复指南
  • Rust 异步代码的测试与调试实践
  • C# 创建 WebApi 教程:从 Minimal API 到数据库集成
  • SpringDoc OpenAPI 常用注解详解与实战示例
  • openclaw-termux:在 Android 上部署 OpenClaw AI Gateway

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online