无需网络,在手机上部署本地大模型指南
随着端侧 AI 能力的提升,越来越多的用户希望在移动设备上直接运行大型语言模型(LLM),以实现离线隐私保护和低延迟交互。本文将介绍几种主流的移动端部署方案,并重点详解 PocketPal AI 的使用与优化。
目前支持的移动端部署方式对比
1. Termux 安装法
优点: 可以在 Android 手机上安装 Termux,模拟 Linux 环境,进而运行 Ollama、Llama 3、Phi-3 等模型。
缺点: 安装过程复杂,涉及大量命令行操作,对终端设置要求高,使用体验较差,适合技术专家或开发者。
总结: 比较适合有一定技术背景的用户,体验不如其他方法友好。
2. MLC LLM
优点: 支持 GPU 调用,可能提升计算速度,是较为推荐的开源方案。
缺点: 旧款手机容易出现黑屏或崩溃,可能是由于占用过多 GPU 资源导致。新机型可能会有所改善。
总结: 适合较新型号的手机,老旧设备可能体验较差。
3. Maid APP 安装法
优点: 通过安装 Maid APP,可以直接使用大模型,安装较为简便。
缺点: 需要特殊网络环境,运行速度非常慢,使用体验差,不推荐使用。
总结: 虽然安装简便,但性能和速度的限制使得这不是一个理想选择。
4. PocketPal AI
优点: 跨平台应用(iOS/Android),运行方便,速度较快,适合大多数用户使用。开源且注重隐私。
缺点: 安装包获取渠道受限(如 Google Play),国内用户可能需要特定网络环境下载,部分功能受限于系统权限。
总结: 瑕不掩瑜,PocketPal AI 是一款较好的选择。
接下来,我们将重点就 PocketPal AI 进行更为详细的介绍。
关于 PocketPal AI
PocketPal AI 是一款袖珍型的 AI 助手,基于小型语言模型(SLMs)运行,直接在您的手机上运行。它支持 iOS 和 Android,允许您在无需互联网连接的情况下与各种 SLMs 进行互动。
核心特点
- 离线 AI 助手:直接在设备上运行语言模型,无需互联网连接,保障数据隐私。
- 模型灵活性:支持下载并切换多个 SLMs,包括 Danube 2 和 3、Phi、Gemma 2 和 Qwen 等。
- 自动卸载/加载:当应用在后台时,自动管理内存,通过卸载模型来节省空间,防止后台耗电。
- 推理设置:自定义模型参数,如系统提示、温度(Temperature)、BOS 标记和聊天模板。
- 实时性能指标:查看每秒生成的令牌数量(Tokens/s)和每个令牌的毫秒数(ms/token)。
安装指南
iOS 用户
从 App Store 下载 PocketPal AI。
Android 用户
通过 Google Play 获取 PocketPal AI。
可用模型
PocketPal AI 预配置了一些流行的 SLMs(小型语言模型)。在使用之前,模型需要先下载。您可以直接从应用程序中下载并使用这些模型,还可以加载任何其他您喜欢的 GGUF 格式模型。
使用 PocketPal AI
下载模型
- 点击汉堡菜单。
- 进入'模型'页面。


