本地部署与运行大语言模型实战指南
人工智能(Artificial Intelligence)几乎与计算机科学一样古老,在二十世纪五十年代被首次提出,六十年代就已经形成比较成熟的理论。但受制于算力和数据,直到二十一世纪第一个十年后才有了重大突破(深度学习和 CNN),并在第二个十年正式爆发(大模型)。2022 年秋 OpenAI 的 ChatGPT 横空出世,让 AI 第一次达到「类人」层次,大语言模型(Large Language Model, LLM)也正式进入了公众的视野。
在本地环境部署和运行大语言模型(LLM)的多种方案,重点对比了 Ollama、LM Studio 和 GPT4All 三种主流工具的特性与适用场景。内容涵盖本地部署的隐私安全优势、开源模型获取渠道、硬件配置建议及量化技术说明。此外,还提供了基于 Python 的 API 调用示例及常见故障排查指南,帮助开发者快速搭建私有化 AI 助手并实现业务集成。

人工智能(Artificial Intelligence)几乎与计算机科学一样古老,在二十世纪五十年代被首次提出,六十年代就已经形成比较成熟的理论。但受制于算力和数据,直到二十一世纪第一个十年后才有了重大突破(深度学习和 CNN),并在第二个十年正式爆发(大模型)。2022 年秋 OpenAI 的 ChatGPT 横空出世,让 AI 第一次达到「类人」层次,大语言模型(Large Language Model, LLM)也正式进入了公众的视野。
体验大模型的方式有很多种,最方便的就是直接使用各大 AI 大厂提供的聊天机器人服务。确实很有趣,可以发现 LLM 与以往的人工智能非常不同的地方在于,它能听懂人话了,并且说的也像人话。身为开发者,光这么把玩太无聊了,最适合开发者的玩法就是自己折腾,在本地部署 LLM,这样玩起来才更过瘾。
唯一的缺点就是 LLM 这玩意儿很费硬件,跑起来比较费钱,要跑的顺畅一些更是需要充足的显存和内存支持。
要想本地部署 LLM,模型本身必须是开源的。闭源的模型只能通过其 API 使用。目前最为著名的开源模型托管平台是 HuggingFace,它不但提供 LLM 的托管,还有一个几乎成为业界标准的 LLM 评估系统,定期发布最新模型的评估,以帮助大家选择合适的 LLM。它还提供了下载和使用 LLM 的 Python 库,即著名的 transformers。
对于国内用户,如果无法访问国际网站,可以使用国内的镜像站点或社区,如 ModelScope(魔搭社区),这些平台提供了丰富的中文模型资源和加速下载通道。
下面介绍几种非常方便的、五分钟就能学会的本地部署和运行 LLM 的方式。
Ollama 是目前最为方便的方式之一。它使用起来特别的方便,安装好以后,直接一句命令就能运行并使用 LLM。
ollama run llama3
这就能运行 Meta 的最新 LLaMA3 模型。当然了,运行具体模型前最好先读一读其文档,确认一下硬件配置是否满足模型要求。
curl -fsSL https://ollama.com/install.sh | sh
ollama pull <model>: 拉取模型ollama list: 查看已安装的模型ollama serve: 启动服务(默认端口 11434)LM Studio 是一个集成化的、用户友好的、界面漂亮的开源 LLM 应用程序。它集 LLM 下载、运行和使用于一体,且有着非常好用的图形化终端。
GPT4All 是一个与 LM Studio 类似的集成化的用户友好的工具。除了方便下载外,它也提供了好用的图形化终端来使用 LLM。
在本地运行大模型,硬件是关键瓶颈。以下是针对不同规模模型的推荐配置:
| 模型参数量 | 推荐显存/内存 | 推理速度 | 适用场景 |
|---|---|---|---|
| 7B - 8B | 8GB VRAM / 16GB RAM | 较快 | 日常对话、代码辅助 |
| 13B - 14B | 12GB VRAM / 24GB RAM | 中等 | 复杂任务、长文本分析 |
| 30B+ | 24GB+ VRAM / 64GB+ RAM | 较慢 | 专业领域、高精度推理 |
为了降低硬件门槛,通常会对模型进行量化(Quantization)。常见的量化格式包括 GGUF(用于 llama.cpp/Ollama)。
除了使用命令行或 GUI 工具,开发者可以通过 Python 脚本调用本地 LLM 接口,将其集成到自己的应用中。
import requests
# 假设 Ollama 运行在 localhost:11434
response = requests.post(
'http://localhost:11434/api/generate',
json={
'model': 'llama3',
'prompt': '请简述量子力学的基本原理',
'stream': False
}
)
print(response.json()['response'])
本文介绍了几种使用起来非常方便的在本地运行 LLM 的方式。根据工具的特点,如果您使用的是 Mac,或者想要与其他工具结合使用,那建议最好使用 Ollama,毕竟它是对 Mac 最为友好且 API 生态完善;如果硬件比较好且偏好图形界面就用 LM Studio;否则的话可以用 GPT4All。本地部署大模型不仅能保护隐私,更是深入学习 AI 技术的最佳途径。随着硬件成本的下降和模型优化技术的进步,本地运行大模型将成为开发者的标配。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online