本地部署开源语言大模型 Llama3 及中文微调版教程
简介
Llama3 是 Meta 公司发布的最新一代开源语言大模型。与闭源的商业模型类似,它可以完成对话、翻译、上下文理解、代码生成等一系列复杂任务。将其部署在本地电脑后,用户可以在无须联网的情况下使用这一 AI 助手,有效保障数据隐私并降低延迟。
Ollama 是一个支持在本地运行大语言模型的工具,兼容 Windows、MacOS 和 Linux 操作系统。它简化了模型的下载、管理和推理过程,用户仅需一行命令即可启动模型。在本教程中,我们将使用 Ollama 作为核心工具来部署和管理 Llama3 模型。
LobeChat 是一款开源的聊天界面,支持接入本地运行的 Ollama 服务。通过它,我们可以获得更友好的 UI 体验和插件扩展能力,方便日常交互。
安装准备
硬件要求
Llama3 提供不同参数量版本,常见的有 8B(80 亿参数)和 70B(700 亿参数)。
- 70B 版本:需要强大的硬件支持,建议显存 48GB 以上,适合企业级服务器或高端工作站。
- 8B 版本:相对轻量,推荐显存 8GB 及以上,适合大多数个人 PC 和笔记本。
最低配置建议:
- GPU:NVIDIA 显卡,显存至少 8GB(推荐 12GB+ 以获得更好体验)。
- 内存:系统内存 16GB 及以上。
- 磁盘空间:预留 10GB 以上空间。Llama3 8B 版本约需 5GB,中文微调版因包含额外权重,建议预留 8GB 以上。
- 网络环境:首次下载模型需要良好的网络连接。
利用 Ollama 本地部署 Llama3
Windows 系统安装
- 访问 Ollama 官网下载 Windows 安装包并双击运行。
- 安装完成后,Ollama 将在后台以服务形式运行。
- 默认情况下,Ollama 仅监听本地地址
127.0.0.1:11434。若需跨域访问(例如连接前端应用),需设置环境变量OLLAMA_ORIGINS。
配置跨域访问:
- 退出 Ollama 托盘程序。
- 打开 Windows 控制面板 -> 系统和安全 -> 系统 -> 高级系统设置 -> 环境变量。
- 在'用户变量'中新建或编辑变量名
OLLAMA_ORIGINS,值设为*。 - 保存后重启系统,重新运行 Ollama。
MacOS / Linux 系统安装
使用 Homebrew (MacOS) 或官方脚本 (Linux) 安装:
# MacOS
brew install ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
运行基础模型
打开终端(Windows 下为 CMD 或 PowerShell),输入以下命令:
ollama run llama3
该命令会检查本地是否存在 llama3 模型,若不存在则自动从 Hugging Face 拉取。下载完成后,模型将立即进入交互模式。
交互示例:
>>> 你好,请介绍一下你自己。
<<< 你好!我是 Llama3,一个由 Meta 开发的大型语言模型...


