跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
Shell / BashAI算法

在 Android 设备上利用 Termux 安装 llama.cpp 并启动 WebUI

在 Android 设备上利用 Termux 安装 llama.cpp 并启动 WebUI llama.cpp 没有发布官方 aarch64 的二进制,需要自己编译,好在 Termux 已经有编译好的包可用。 安装 llama-cpp 软件 在 Termux 中安装 llama-cpp 包: 如果找不到这个包,请先执行 apt update 更新目录。为简单起见,先不安装 llama-cpp-ba…

古灵精怪发布于 2026/4/6更新于 2026/5/2261K 浏览

在 Android 设备上利用 Termux 安装 llama.cpp 并启动 WebUI

llama.cpp 没有发布官方 aarch64 的二进制,需要自己编译,好在 Termux 已经有编译好的包可用。

1. 安装 llama-cpp 软件

在 Termux 中安装 llama-cpp 包:

$ apt update
$ apt install llama-cpp

如果找不到这个包,请先执行 apt update 更新目录。为简单起见,先不安装 llama-cpp-backend-vulkan,用 CPU 来执行 llama.cpp。

2. 下载模型文件

下载 Qwen3.5-0.8B-UD-Q4_K_XL.gguf 模型。该模型是 Q4 量化的,比原版减少了一半空间,而能力差不多。

$ mkdir model
$ cd model
$ curl -LO https://hf-mirror.com/unsloth/Qwen3.5-0.8B-GGUF/resolve/main/Qwen3.5-0.8B-UD-Q4_K_XL.gguf

3. 使用 llama-cli 交互工具加载模型并对话

$ llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384 -cnv

加载成功后,可以输入问题进行交互。例如:

用因式分解法解方程 x^2-x-20=0

模型输出结果后,输入 /exit 退出:

> /exit
Exiting...

由于模型较小,智能相对有限,但基本功能正常。

4. 利用 llama-server 内置的 WebUI 功能

启动服务器以提供 Web 界面访问:

$ llama-server -m ./Qwen3.5-0.8B-UD-Q4_K_XL.gguf --jinja -c 0 --host 127.0.0.1 --port 8033

系统检测到 CPU 有 8 个线程,用了 7 个,输出一堆参数后等待用浏览器访问 http://127.0.0.1:8033。

在浏览器中输入问题,输出速度比命令行慢一些,大约 3t/s。

服务端日志如下:

srv log_server_r: done request: GET / 127.0.0.1 200
srv params_from_: Chat format: peg-constructed
slot get_availabl: id 3 | task -1 | selected slot by LRU, t_last = -1
slot launch_slot_: id 3 | task -1 | sampler chain: logits -> ?penalties -> ?dry -> ?top-n-sigma -> top-k -> ?typical -> top-p -> min-p -> ?xtc -> temp-ext -> dist
slot launch_slot_: id 3 | task 0 | processing task, is_child = 0
slot update_slots: id 3 | task 0 | new prompt, n_ctx_slot = 262144, n_keep = 0, task.n_tokens = 23
slot update_slots: id 3 | task 0 | n_tokens = 0, memory_seq_rm [0, end)
srv log_server_r: done request: POST /v1/chat/completions 127.0.0.1 200
slot init_sampler: id 3 | task 0 | init sampler, took 0.01 ms, tokens: text = 23, total = 23
slot update_slots: id 3 | task 0 | prompt processing done, n_tokens = 23, batch.n_tokens = 23
slot print_timing: id 3 | task 0 | prompt eval time = 1447.31 ms / 23 tokens ( 62.93 ms per token, 15.89 tokens per second)
eval time = 171453.86 ms / 569 tokens ( 301.32 ms per token, 3.32 tokens per second)
total time = 172901.17 ms / 592 tokens
slot release: id 3 | task 0 | stop processing: n_tokens = 591, truncated = 0
srv update_slots: all slots are idle

内存占用情况:

llama_memory_breakdown_print: | memory breakdown [MiB] | total free self model context compute unaccounted |
llama_memory_breakdown_print: | - Host | 4457 = 522 + 3149 + 786 |

目录

  1. 在 Android 设备上利用 Termux 安装 llama.cpp 并启动 WebUI
  2. 1. 安装 llama-cpp 软件
  3. 2. 下载模型文件
  4. 3. 使用 llama-cli 交互工具加载模型并对话
  5. 4. 利用 llama-server 内置的 WebUI 功能
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Mac 系统 nvm 安装后命令未找到问题排查与.zshrc 配置
  • GitHub 学生开发者包认证流程与注意事项
  • AI 数据标注平台的选型与实践:效率提升背后的技术逻辑
  • 前端消息提示组件设计与最佳实践
  • AI 智能客服系统架构深度解析:从技术选型到生产实践
  • AI 数据标注平台的选型与实践:效率提升背后的技术逻辑
  • AI 数据标注平台的选型与实践:效率提升背后的技术逻辑
  • OpenClaw 底层原理深度拆解:从指令到执行
  • HarmonyOS6 RcInput 组件核心架构与类型系统设计
  • C++ set 与 map 底层实现及高频算法实战
  • AI 数据标注平台的选型与实践:效率提升背后的技术逻辑
  • 知网 AIGC 检测原理及论文被判定为 AI 生成的原因
  • AI 数据标注平台选型实践与效率提升技术逻辑
  • AI 重构产品能力边界:为何“人人都是产品经理”终成现实
  • AI 数据标注平台的选型与实践:效率提升背后的技术逻辑
  • Java 12 Stream API:Collectors.teeing() 组合两个收集器结果
  • 结合 LLama-Factory 打造个性化 AI 角色实战
  • Whisper 模型全版本指定路径下载代码实现
  • AI 时代技术民主化:文科生为何成最大受益者
  • LLaMA-Factory 微调多模态大模型 Qwen3-VL

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online