使用 Ollama 本地部署 LLaMA 大模型
1. 概述
随着人工智能技术的发展,大语言模型(LLM)已成为开发者的重要工具。为了保障数据隐私、降低延迟以及实现离线使用,将开源大模型部署在本地环境变得尤为重要。本文详细介绍如何使用 Ollama 这一轻量级工具,在本地稳定部署 LLaMA 系列大语言模型。
Ollama 是一个用于运行大型语言模型的开源框架,支持 macOS、Linux 和 Windows 系统。它简化了模型的管理和运行流程,使得开发者无需复杂的配置即可体验强大的 AI 能力。
2. 环境准备
在开始部署之前,请确保您的硬件环境满足以下基本要求:
| 组件 | 最低要求 | 推荐配置 |
|---|---|---|
| 内存 (RAM) | 8 GB | 16 GB 或更高 |
| 存储 (Disk) | 5 GB | 20 GB 以上 |
| GPU | 无 (CPU 推理) | NVIDIA GPU (CUDA 支持) |
| 操作系统 | Windows 10/11, macOS, Linux | 最新稳定版 |
注意:部分网络资源(如 HuggingFace)可能需要特殊的网络连接才能访问,请提前准备好相应的网络环境。
3. 安装 Ollama
3.1 下载与安装
访问 Ollama 官方网站获取安装包。根据操作系统选择对应的版本进行下载和安装。
- Windows: 下载
.msi安装包并运行。 - macOS: 下载
.dmg文件拖入应用程序目录。 - Linux: 使用官方提供的脚本命令安装。
安装完成后,打开终端(Terminal)验证安装是否成功:
ollama -v
如果输出类似 ollama version is 0.3.13 的版本信息,则说明安装成功。
4. 下载与导入模型
4.1 模型格式选择
Ollama 主要支持 GGUF 格式的模型文件。GGUF 是由 llama.cpp 团队开发的一种高效模型存储格式,具有单文件、跨平台兼容性好的特点。
您可以在 HuggingFace 等模型仓库中搜索基于 LLaMA 架构的中文优化模型。例如,搜索 Llama3.1-8B-Chinese-Chat 等关键词,并在 Files 标签页下查找 .gguf 后缀的文件。
4.2 创建配置文件
下载的 GGUF 文件不能直接通过简单的命令加载,需要创建一个名为 Modelfile 的配置文件来定义模型参数和模板。
在项目目录下新建一个文本文件(例如 Modelfile),内容如下:


