无需网络，在手机上部署本地大模型指南

随着端侧 AI 能力的提升，越来越多的用户希望在移动设备上直接运行大型语言模型（LLM），以实现离线隐私保护和低延迟交互。本文将介绍几种主流的移动端部署方案，并重点详解 PocketPal AI 的使用与优化。

目前支持的移动端部署方式对比

1. Termux 安装法

优点： 可以在 Android 手机上安装 Termux，模拟 Linux 环境，进而运行 Ollama、Llama 3、Phi-3 等模型。

缺点： 安装过程复杂，涉及大量命令行操作，对终端设置要求高，使用体验较差，适合技术专家或开发者。

总结： 比较适合有一定技术背景的用户，体验不如其他方法友好。

2. MLC LLM

优点： 支持 GPU 调用，可能提升计算速度，是较为推荐的开源方案。

缺点： 旧款手机容易出现黑屏或崩溃，可能是由于占用过多 GPU 资源导致。新机型可能会有所改善。

总结： 适合较新型号的手机，老旧设备可能体验较差。

3. Maid APP 安装法

优点： 通过安装 Maid APP，可以直接使用大模型，安装较为简便。

缺点： 需要特殊网络环境，运行速度非常慢，使用体验差，不推荐使用。

总结： 虽然安装简便，但性能和速度的限制使得这不是一个理想选择。

4. PocketPal AI

优点： 跨平台应用（iOS/Android），运行方便，速度较快，适合大多数用户使用。开源且注重隐私。

缺点： 安装包获取渠道受限（如 Google Play），国内用户可能需要特定网络环境下载，部分功能受限于系统权限。

总结： 瑕不掩瑜，PocketPal AI 是一款较好的选择。

接下来，我们将重点就 PocketPal AI 进行更为详细的介绍。

关于 PocketPal AI

PocketPal AI 是一款袖珍型的 AI 助手，基于小型语言模型（SLMs）运行，直接在您的手机上运行。它支持 iOS 和 Android，允许您在无需互联网连接的情况下与各种 SLMs 进行互动。

核心特点

离线 AI 助手：直接在设备上运行语言模型，无需互联网连接，保障数据隐私。
模型灵活性：支持下载并切换多个 SLMs，包括 Danube 2 和 3、Phi、Gemma 2 和 Qwen 等。
自动卸载/加载：当应用在后台时，自动管理内存，通过卸载模型来节省空间，防止后台耗电。
推理设置：自定义模型参数，如系统提示、温度（Temperature）、BOS 标记和聊天模板。
实时性能指标：查看每秒生成的令牌数量（Tokens/s）和每个令牌的毫秒数（ms/token）。

安装指南

iOS 用户

从 App Store 下载 PocketPal AI。

Android 用户

通过 Google Play 获取 PocketPal AI。

可用模型

PocketPal AI 预配置了一些流行的 SLMs（小型语言模型）。在使用之前，模型需要先下载。您可以直接从应用程序中下载并使用这些模型，还可以加载任何其他您喜欢的 GGUF 格式模型。

使用 PocketPal AI

下载模型

点击汉堡菜单。
进入'模型'页面。

无需网络，在手机上部署本地大模型指南