手机与电脑部署 Phi3、Llama3 大模型指南

综述由AI生成大模型基于缩放定律，参数越大能力越强。介绍 Meta 的 Llama 3 和微软的 Phi-3 两款开源小模型，重点讲解如何在电脑（Ollama）及手机（Termux+Ollama）上私有化部署。通过实测对比了两者在响应速度、中文能力、代码生成及数学推理上的表现，指出小模型推理成本低、适合本地定制的趋势。

芝士奶盖发布于 2025/2/6更新于 2026/6/420 浏览

大模型无疑是此次 AI 革命的主角，基于 Scaling Law（缩放定律）。简单来说，就是数据越多，参数越大，算力越强，模型最终的能力就越强。随着模型参数和预训练数据规模的增加，模型能力与任务效果不断改善，展示出了一些小规模模型所不具备的'涌现能力'。

随着大模型时代的逐步来临，以 ChatGPT 为代表的前沿大模型技术正逐步在经济、法律、社会等诸多领域展现其重要价值。与此同时，众多 AI 企业纷纷推出开源大模型，其规模正遵循扩展定律实现指数级增长。

然而，一个不可忽视的趋势是，大模型的体积正在逐渐精简，使得私有化部署成为可能。这一需求显得尤为重要，特别是在对个人隐私保护要求极高的场景中。想象一下，一个能够深入了解你各类数据的 AI 机器人，在无需联网传输数据的情况下，直接在你的设备上运行并为你提供决策支持，这无疑大大增强了用户的信任。而如果这种 AI 只存在企业的'云服务器'上，尽管性能更强，但安全性及可靠性就堪忧了。

本文在此会介绍几个适合私人部署的最新大模型，然后手把手部署到电脑及手机。不过，丑话说在前，现阶段不要对'本地私有部署的大模型'有过高的期待哈。那我们开始吧！

一、适合本地部署的开源大模型

目前备受欢迎的大模型，诸如 ChatGPT 和 Bard，都建立在专有的闭源基础之上，这无疑限制了它们的使用，并导致技术信息的透明度不足。

然而，开源 AI 大模型（LLMs）正逐渐崭露头角，它们不仅增强了数据的安全性和隐私保护，还为用户节省了成本，减少了对外部依赖，实现了代码的透明性和模型的个性化定制。这里我重点介绍下 Meta 推出的 Llama 3 和微软的 Phi-3，这两款算是开源大模型的顶流，是'小而美'的大模型，而且方便部署。

1. Llama 3

Meta 重磅发布两款开源 Llama 3 8B 与 Llama 3 70B 模型，供外部开发者免费使用。Meta 表示，Llama 3 8B 和 Llama 3 70B 是目前同体量下，性能最好的开源模型。

LLaMA 是开源模型的顶流，众多国内的大型模型均源于它的构建！它通过人类反馈的强化学习（RLHF）进行了微调。它是一种生成文本模型，可以用作聊天机器人，并且可以适应各种自然语言生成任务，包括编程任务。从其分享的基准测试可以看出，Llama 3 400B+ 的实力几乎媲美 Claude 超大杯以及新版 GPT-4 Turbo，虽然仍有一定的差距，但足以证明其在顶尖大模型中占有一席之地。

GitHub 项目地址：https://github.com/meta-llama/llama3

2. Phi-3

Phi 是微软 AI 研究院新推出的开源小型语言模型，适用于商业使用，其优势在于体积小、资源需求少。该模型包括 Phi-3-Mini、Phi-3-Small 和 Phi-3-Medium 三种规模。Phi-3-Mini 仅有 3.8B 参数，但在关键基准测试中表现出色，与大型模型如 Mixtral 8x7B 和 GPT-3.5 相当。更大的 Small 和 Medium 版本在扩展数据集的支持下表现更卓越。

《Phi-3 技术报告：一个能跑在手机上的大模型》：https://arxiv.org/abs/2404.14219

小结

从基准测试上看，Llama 3 8B 和 Phi3 3.8B 小模型都有较好的效果，它们不仅仅都是规模小，其实优化方法还有一定相似的。

决定大模型性能有三要素：框架，数据和参数。参数既然要固定是小规模的，框架在这么小参数下做 MOE 也没意义，因此他们主要是在数据这个要素上下功夫，通过提高数据的数量或质量，从而提升小模型的性能表现。这也为后面精简大模型提供了方向！

二、电脑部署的流程

这里首先介绍一个大模型部署的神器：Ollama，它可以支持 Llama 3、Mistral、Gemma 等大型语言模型的启动并运行。

通过 Ollama 在电脑上部署大模型，基本只要简单的两小步：1、下载安装 Ollama；2、运行大模型（完）。

具体以 Windows 为例，首先到官网下载。下载 Ollama 后，然后一路确认就安装好了。

官网下载链接：https://github.com/ollama/ollama

安装完 Ollama 后，然后打开命令行，运行命令 ollama run llama3，就可以下载并运行 llama3 大模型了（其他模型的运行命令如上），初次下载模型的会比较慢，下载完就可以愉快地对话了。

Ollama 还支持其他功能如，图片等多模态输入、传入提示词调教模型等，具体可以看下文档。

部署建议：

确保系统内存至少 8GB，推荐 16GB 以上。
如果使用 NVIDIA GPU，请确保已安装 CUDA 驱动，Ollama 会自动调用 GPU 加速推理。

手机与电脑部署 Phi3、Llama3 大模型指南

一、适合本地部署的开源大模型

1. Llama 3

2. Phi-3

小结

二、电脑部署的流程

更多推荐文章

相关免费在线工具

三、手机部署的流程

四、本地大模型的体验

五、结语

更多推荐文章

相关免费在线工具

手机与电脑部署 Phi3、Llama3 大模型指南

一、适合本地部署的开源大模型

1. Llama 3

2. Phi-3

小结

二、电脑部署的流程

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、手机部署的流程

四、本地大模型的体验

五、结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具