Llama-3.2-3B 本地部署：Ollama 快速运行指南

想在个人电脑上体验 Meta 最新的轻量级大模型，又不想折腾复杂的 Python 环境？使用 Ollama 可以在几分钟内完成 Llama-3.2-3B 的本地部署。这个方案对硬件要求友好，普通消费级显卡甚至 CPU 即可运行，非常适合本地开发和离线场景。

工具与模型简介

Ollama 是一个本地大模型运行服务，它屏蔽了底层依赖管理的复杂性。你可以把它看作一个应用商店加运行环境的结合体，负责下载模型并提供统一的接口。

Llama-3.2-3B 是 Meta 发布的轻量级多语言模型。虽然只有 30 亿参数，但在指令遵循和多语言理解上表现均衡。相比动辄几十亿参数的模型，它在资源消耗和响应速度之间取得了很好的平衡。

安装 Ollama

Ollama 支持 Windows、macOS 和 Linux。以 Windows 为例，确保系统为 64 位，内存建议 8GB 以上，并预留 10GB 磁盘空间。

访问官网 https://ollama.com，点击 Download 按钮获取对应系统的安装包。
运行安装程序，全程使用默认选项即可。
安装完成后，Ollama 会以后台服务形式启动，系统托盘区会出现羊驼图标。

重启电脑可确保环境变量生效，之后即可在命令行中使用 ollama 命令。

拉取模型

模型文件存储在 Ollama 服务器上，通过命令行拉取到本地是最核心的步骤。打开 PowerShell 或 CMD（建议管理员模式），输入以下命令：

ollama pull llama3.2:3b

这条命令会处理检查、下载和验证过程。根据网络状况，通常只需几十秒到一分钟。完成后，终端会显示成功提示。你也可以通过 ollama list 查看已下载的模型列表。

运行与交互

模型就绪后，直接运行即可进入对话模式。在命令行输入：

ollama run llama3.2:3b

加载完成后，光标前会出现 >>> 提示符，表示已进入交互式聊天状态。此时输入问题，例如：

用中文介绍一下你自己。

按下回车，模型会逐字生成回复。从输入命令到看到首字，整个过程往往在 25 秒以内。这种即时反馈能让你快速评估模型能力。

进阶用法

API 调用

除了命令行交互，Ollama 还暴露了本地 HTTP 接口，方便集成到其他程序中。下面是一个简单的 Python 调用示例：

import requests
import json

url = 'http://localhost:11434/api/generate'
data = {
    "model": "llama3.2:3b",
    "prompt": "为什么天空是蓝色的？",
    "stream": False
}

response = requests.post(url, json=data)

if response.status_code == 200:
    result = response.json()
    print(result['response'])
else:
    (, response.status_code)

Llama-3.2-3B 本地部署：Ollama 快速运行指南