本地部署与运行大语言模型实战指南
人工智能(Artificial Intelligence)几乎与计算机科学一样古老,在二十世纪五十年代被首次提出,六十年代就已经形成比较成熟的理论。但受制于算力和数据,直到二十一世纪第一个十年后才有了重大突破(深度学习和 CNN),并在第二个十年正式爆发(大模型)。2022 年秋 OpenAI 的 ChatGPT 横空出世,让 AI 第一次达到「类人」层次,大语言模型(Large Language Model, LLM)也正式进入了公众的视野。
为什么选择本地部署 LLM
体验大模型的方式有很多种,最方便的就是直接使用各大 AI 大厂提供的聊天机器人服务。确实很有趣,可以发现 LLM 与以往的人工智能非常不同的地方在于,它能听懂人话了,并且说的也像人话。身为开发者,光这么把玩太无聊了,最适合开发者的玩法就是自己折腾,在本地部署 LLM,这样玩起来才更过瘾。
本地部署的核心优势
- 隐私安全:不用多说,直接用 Chat 服务或者 API 确实方便,但都是把数据传到别人的服务器上。有些不方便说的话,不适合别人看的敏感数据,那肯定就不能用了。但使用部署在本地的 LLM 就不用担心了,数据不出内网。
- 定制化能力:可以定制 LLM 以打造个人的知识库或者知识助手。通过 RAG(检索增强生成)技术,将私有文档向量化后接入模型,实现专属问答。
- 深入理解技术栈:深入了解 LLM 的技术栈,亲自折腾一遍才能知道到底有啥,需要啥。这对于后续进行模型微调和学习至关重要。
- 成本可控:虽然初期硬件投入较大,但对于高频调用场景,长期来看可能比按 Token 付费的 API 更经济。
- 离线可用:无需网络连接即可运行,适合网络受限环境。
唯一的缺点就是 LLM 这玩意儿很费硬件,跑起来比较费钱,要跑的顺畅一些更是需要充足的显存和内存支持。
开源模型资源获取
要想本地部署 LLM,模型本身必须是开源的。闭源的模型只能通过其 API 使用。目前最为著名的开源模型托管平台是 HuggingFace,它不但提供 LLM 的托管,还有一个几乎成为业界标准的 LLM 评估系统,定期发布最新模型的评估,以帮助大家选择合适的 LLM。它还提供了下载和使用 LLM 的 Python 库,即著名的 transformers。
对于国内用户,如果无法访问国际网站,可以使用国内的镜像站点或社区,如 ModelScope(魔搭社区),这些平台提供了丰富的中文模型资源和加速下载通道。
本地运行 LLM 的主流工具
下面介绍几种非常方便的、五分钟就能学会的本地部署和运行 LLM 的方式。
1. Ollama
Ollama 是目前最为方便的方式之一。它使用起来特别的方便,安装好以后,直接一句命令就能运行并使用 LLM。
ollama run llama3
这就能运行 Meta 的最新 LLaMA3 模型。当然了,运行具体模型前最好先读一读其文档,确认一下硬件配置是否满足模型要求。
核心特性
- C/S 架构:Ollama 本身是 C/S 式的,它会启一个小型的 HTTP server 以运行 LLM。
- API 兼容:除了直接使用 Ollama 自己的终端以外,也可以充当模型 API 给其他工具使用,比如像 LangChain 就可以无缝对接 Ollama。
- 跨平台:最初源于 Mac,对 Mac 最为友好,现已支持 Windows 和 Linux。
安装示例 (Linux)
curl -fsSL https://ollama.com/install.sh | sh
常用命令
ollama pull <model>: 拉取模型ollama list: 查看已安装的模型ollama serve: 启动服务(默认端口 11434)
2. LM Studio
LM Studio 是一个集成化的、用户友好的、界面漂亮的开源 LLM 应用程序。它集 LLM 下载、运行和使用于一体,且有着非常好用的图形化终端。


