本地部署开源语言大模型 Llama3 及中文微调版教程

简介

Llama3 是 Meta 公司发布的最新一代开源语言大模型。与闭源的商业模型类似，它可以完成对话、翻译、上下文理解、代码生成等一系列复杂任务。将其部署在本地电脑后，用户可以在无须联网的情况下使用这一 AI 助手，有效保障数据隐私并降低延迟。

Ollama 是一个支持在本地运行大语言模型的工具，兼容 Windows、MacOS 和 Linux 操作系统。它简化了模型的下载、管理和推理过程，用户仅需一行命令即可启动模型。在本教程中，我们将使用 Ollama 作为核心工具来部署和管理 Llama3 模型。

LobeChat 是一款开源的聊天界面，支持接入本地运行的 Ollama 服务。通过它，我们可以获得更友好的 UI 体验和插件扩展能力，方便日常交互。

安装准备

硬件要求

Llama3 提供不同参数量版本，常见的有 8B（80 亿参数）和 70B（700 亿参数）。

70B 版本：需要强大的硬件支持，建议显存 48GB 以上，适合企业级服务器或高端工作站。
8B 版本：相对轻量，推荐显存 8GB 及以上，适合大多数个人 PC 和笔记本。

最低配置建议：

GPU：NVIDIA 显卡，显存至少 8GB（推荐 12GB+ 以获得更好体验）。
内存：系统内存 16GB 及以上。
磁盘空间：预留 10GB 以上空间。Llama3 8B 版本约需 5GB，中文微调版因包含额外权重，建议预留 8GB 以上。
网络环境：首次下载模型需要良好的网络连接。

利用 Ollama 本地部署 Llama3

Windows 系统安装

访问 Ollama 官网下载 Windows 安装包并双击运行。
安装完成后，Ollama 将在后台以服务形式运行。
默认情况下，Ollama 仅监听本地地址 127.0.0.1:11434。若需跨域访问（例如连接前端应用），需设置环境变量 OLLAMA_ORIGINS。

配置跨域访问：

退出 Ollama 托盘程序。
打开 Windows 控制面板 -> 系统和安全 -> 系统 -> 高级系统设置 -> 环境变量。
在'用户变量'中新建或编辑变量名 OLLAMA_ORIGINS，值设为 *。
保存后重启系统，重新运行 Ollama。

MacOS / Linux 系统安装

使用 Homebrew (MacOS) 或官方脚本 (Linux) 安装：

# MacOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

运行基础模型

打开终端（Windows 下为 CMD 或 PowerShell），输入以下命令：

ollama run llama3

该命令会检查本地是否存在 llama3 模型，若不存在则自动从 Hugging Face 拉取。下载完成后，模型将立即进入交互模式。

交互示例：

>>> 你好，请介绍一下你自己。
<<< 你好！我是 Llama3，一个由 Meta 开发的大型语言模型...

本地部署开源语言大模型 Llama3 及中文微调版教程