大模型无疑是此次 AI 革命的主角,基于 Scaling Law(缩放定律)。简单来说,就是数据越多,参数越大,算力越强,模型最终的能力就越强。随着模型参数和预训练数据规模的增加,模型能力与任务效果不断改善,展示出了一些小规模模型所不具备的'涌现能力'。
随着大模型时代的逐步来临,以 ChatGPT 为代表的前沿大模型技术正逐步在经济、法律、社会等诸多领域展现其重要价值。与此同时,众多 AI 企业纷纷推出开源大模型,其规模正遵循扩展定律实现指数级增长。
然而,一个不可忽视的趋势是,大模型的体积正在逐渐精简,使得私有化部署成为可能。这一需求显得尤为重要,特别是在对个人隐私保护要求极高的场景中。想象一下,一个能够深入了解你各类数据的 AI 机器人,在无需联网传输数据的情况下,直接在你的设备上运行并为你提供决策支持,这无疑大大增强了用户的信任。而如果这种 AI 只存在企业的'云服务器'上,尽管性能更强,但安全性及可靠性就堪忧了。
本文在此会介绍几个适合私人部署的最新大模型,然后手把手部署到电脑及手机。不过,丑话说在前,现阶段不要对'本地私有部署的大模型'有过高的期待哈。那我们开始吧!
一、适合本地部署的开源大模型
目前备受欢迎的大模型,诸如 ChatGPT 和 Bard,都建立在专有的闭源基础之上,这无疑限制了它们的使用,并导致技术信息的透明度不足。
然而,开源 AI 大模型(LLMs)正逐渐崭露头角,它们不仅增强了数据的安全性和隐私保护,还为用户节省了成本,减少了对外部依赖,实现了代码的透明性和模型的个性化定制。这里我重点介绍下 Meta 推出的 Llama 3 和微软的 Phi-3,这两款算是开源大模型的顶流,是'小而美'的大模型,而且方便部署。
1. Llama 3
Meta 重磅发布两款开源 Llama 3 8B 与 Llama 3 70B 模型,供外部开发者免费使用。Meta 表示,Llama 3 8B 和 Llama 3 70B 是目前同体量下,性能最好的开源模型。
LLaMA 是开源模型的顶流,众多国内的大型模型均源于它的构建!它通过人类反馈的强化学习(RLHF)进行了微调。它是一种生成文本模型,可以用作聊天机器人,并且可以适应各种自然语言生成任务,包括编程任务。从其分享的基准测试可以看出,Llama 3 400B+ 的实力几乎媲美 Claude 超大杯以及新版 GPT-4 Turbo,虽然仍有一定的差距,但足以证明其在顶尖大模型中占有一席之地。
GitHub 项目地址:https://github.com/meta-llama/llama3
2. Phi-3
Phi 是微软 AI 研究院新推出的开源小型语言模型,适用于商业使用,其优势在于体积小、资源需求少。该模型包括 Phi-3-Mini、Phi-3-Small 和 Phi-3-Medium 三种规模。Phi-3-Mini 仅有 3.8B 参数,但在关键基准测试中表现出色,与大型模型如 Mixtral 8x7B 和 GPT-3.5 相当。更大的 Small 和 Medium 版本在扩展数据集的支持下表现更卓越。
《Phi-3 技术报告:一个能跑在手机上的大模型》:https://arxiv.org/abs/2404.14219
小结
从基准测试上看,Llama 3 8B 和 Phi3 3.8B 小模型都有较好的效果,它们不仅仅都是规模小,其实优化方法还有一定相似的。
决定大模型性能有三要素:框架,数据和参数。参数既然要固定是小规模的,框架在这么小参数下做 MOE 也没意义,因此他们主要是在数据这个要素上下功夫,通过提高数据的数量或质量,从而提升小模型的性能表现。这也为后面精简大模型提供了方向!
二、电脑部署的流程
这里首先介绍一个大模型部署的神器:Ollama,它可以支持 Llama 3、Mistral、Gemma 等大型语言模型的启动并运行。
通过 Ollama 在电脑上部署大模型,基本只要简单的两小步:1、下载安装 Ollama;2、运行大模型(完)。
具体以 Windows 为例,首先到官网下载。下载 Ollama 后,然后一路确认就安装好了。
官网下载链接:https://github.com/ollama/ollama
安装完 Ollama 后,然后打开命令行,运行命令 ollama run llama3,就可以下载并运行 llama3 大模型了(其他模型的运行命令如上),初次下载模型的会比较慢,下载完就可以愉快地对话了。
Ollama 还支持其他功能如,图片等多模态输入、传入提示词调教模型等,具体可以看下文档。
部署建议:
- 确保系统内存至少 8GB,推荐 16GB 以上。
- 如果使用 NVIDIA GPU,请确保已安装 CUDA 驱动,Ollama 会自动调用 GPU 加速推理。


