使用 Ollama 本地部署与体验 Llama3-8B
1. Ollama 简介
Ollama 是一个基于 Go 语言开发的简单易用的本地大模型运行框架。它旨在简化大型语言模型(LLM)的部署和运行,类似于 Docker 容器化技术,但专注于 AI 模型。
Ollama 制定了一种类似 Docker 的模型应用标准,支持 list、pull、push、run 等常用命令。同时,它基于 Go 语言的 Web 框架 Gin 提供了一系列 API 接口,允许开发者像调用 OpenAI 接口那样与本地模型进行交互。
2. 核心命令概览
安装 Ollama 后,可以通过命令行与模型交互。主要命令包括:
ollama list:显示已下载的模型列表。ollama show:显示特定模型的详细信息。ollama pull:从仓库拉取模型。ollama push:将模型推送到远程仓库。ollama cp:拷贝一个模型。ollama rm:删除模型。ollama run:运行模型进行对话。ollama serve:启动本地服务以支持 API 调用。
3. Windows 平台部署与体验
3.1 下载安装
访问 Ollama 官网即可下载客户端,支持 Windows、macOS 和 Linux 跨平台安装。
- 下载 Windows 版本安装包。
- 运行安装程序,默认路径安装即可。
- 安装完成后,打开命令行工具(CMD 或 PowerShell)。
- 输入
ollama -v检查版本信息,确认安装成功。
3.2 运行模型
Windows 上集成度较高,Llama3 通常可直接使用。
ollama run llama3
首次运行时,系统会自动下载模型文件(约 4.7GB)。下载速度取决于网络环境。下载完成后,即可开始对话。
性能表现:
- 对于配置一般的电脑,8B 参数模型运行流畅。
- 70B 模型需要更高配置的显卡(如 RTX 3090/4090)才能流畅运行。
- 中文语料相对英文较少,但在代码生成方面表现良好。
- 上下文长度过长时可能出现幻觉,需合理控制 Prompt。
3.3 API 调用示例
Ollama 默认监听 http://localhost:11434。可以使用 curl 进行测试:
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "你好,请介绍一下你自己。"
}'
4. macOS 平台部署与体验
4.1 安装步骤
- 在官网下载 macOS 版本的压缩包。
- 解压并拖拽至应用程序目录或直接运行安装脚本。
- 打开终端,输入
ollama -v验证版本。
4.2 服务启动
与 Windows 不同,macOS 可能需要显式启动服务进程:
# 开启服务,保持该窗口不关闭
ollama serve


