使用 Ollama 在本地电脑运行大模型指南
本文介绍了如何使用 Ollama 在本地环境部署和运行大型语言模型。内容涵盖下载安装、命令行交互、模型切换与管理、以及 RESTful API 调用方法。通过 Ollama,用户无需依赖云端服务即可利用 CPU 或 GPU 资源进行离线推理,支持多种开源模型如 Llama2 和 Gemma,并提供详细的命令操作日志与参数配置建议,适合开发者快速搭建本地 AI 应用。

本文介绍了如何使用 Ollama 在本地环境部署和运行大型语言模型。内容涵盖下载安装、命令行交互、模型切换与管理、以及 RESTful API 调用方法。通过 Ollama,用户无需依赖云端服务即可利用 CPU 或 GPU 资源进行离线推理,支持多种开源模型如 Llama2 和 Gemma,并提供详细的命令操作日志与参数配置建议,适合开发者快速搭建本地 AI 应用。

从 OpenAI 推出大模型已经过去一年多,AI 技术对我们的影响日益显著。大型语言模型(LLM)在提升准确性和处理复杂任务方面表现卓越,但本地运行这些模型一直是一项艰巨的任务。传统上,运行大模型需要大量的计算资源,且数据存储需求往往超过了一般个人设备所能提供的范围。此外,设置、配置和维护这些模型的过程可能复杂且耗时,兼容性问题也常让用户望而却步。
Ollama 是一个开源项目,旨在简化本地运行大型模型的过程。它精简了整个过程,消除了与这些大型模型相关的设置和维护的复杂性。关键优势在于它不需要依赖昂贵的英伟达显卡,仅使用 CPU 即可运行,这使得无论用户的技术栈或硬件资源如何,大模型的力量都变得触手可及。
Ollama 支持 Windows、macOS 和 Linux 系统。推荐访问官方网站下载对应版本:
下载完成后,直接运行安装程序即可。安装后,Ollama 服务会自动启动,并在后台运行。
打开命令行终端(Windows 下为 CMD 或 PowerShell,Mac/Linux 下为 Terminal),输入以下命令检查版本信息:
ollama --version
如果显示版本号,说明安装成功。
Ollama 的核心功能是通过命令行与模型交互。首次运行时,系统会自动下载所需的模型文件。
在命令行中输入以下命令开始运行 Llama2 模型:
ollama run llama2
执行后,系统将自动拉取模型文件(约 3.8GB)。下载完成后,即可直接在命令行对话。
>>> who are you
I'm just an AI assistant trained by Meta AI, my primary function is to assist users with their inquiries and provide information on a wide range of topics.
Ollama 支持多种开源模型。可以通过 ollama pull 命令预先下载模型,或直接通过 run 命令自动下载。
例如,运行 Gemma 模型:
ollama run gemma
首次运行会先下载模型文件(约 5.2GB),后续运行将直接使用本地缓存,速度更快。
除了运行模型,Ollama 提供了丰富的管理命令来操作本地模型库。
| 命令 | 描述 |
|---|---|
ollama list | 列出所有已下载的模型 |
ollama rm <model> | 删除指定的模型 |
ollama show <model> | 显示模型的详细信息 |
ollama pull <model> | 手动拉取模型 |
ollama create | 基于 Modelfile 创建自定义模型 |
使用 /show 命令可以查看当前加载模型的元数据:
>>> /show info
Name: llama2
Parameters: 7B
Quantization: q4_0
...
当磁盘空间不足时,可以使用 rm 命令移除不再需要的模型:
ollama rm llama2
为了获得更好的推理性能,可以对 Ollama 进行一些环境配置。
默认情况下,模型有固定的上下文窗口限制。可以通过环境变量调整最大上下文长度:
export OLLAMA_NUM_CTX=4096
虽然 Ollama 支持纯 CPU 运行,但如果拥有 NVIDIA 显卡,它可以自动利用 GPU 加速推理。确保已安装正确的 CUDA 驱动,Ollama 会在启动时检测并启用 GPU 层。
Ollama 提供不同量化级别的模型(如 Q4_K_M, Q8_0 等)。量化级别越低,模型体积越小,速度越快,但精度略有损失。对于普通 PC,推荐使用 q4_0 或 q4_k_m 版本。
Ollama 内置了一个本地 RESTful API,允许开发者通过 HTTP 请求与模型交互,便于集成到应用程序中。
通常 Ollama 启动后 API 服务已在 http://localhost:11434 监听。无需额外启动命令。
发送一个 POST 请求生成文本:
curl http://localhost:11434/api/generate -d '{
"model": "llama2",
"prompt": "为什么天空是蓝色的?",
"stream": false
}'
在 Python 脚本中,可以使用 requests 库调用 API:
import requests
import json
response = requests.post(
'http://localhost:11434/api/generate',
json={
'model': 'llama2',
'prompt': '解释一下量子纠缠',
'stream': False
}
)
print(response.json()['response'])
OLLAMA_NUM_CTX 或使用更小参数的模型(如 7B 以下)。Ollama 极大地降低了本地运行大模型的门槛。通过简单的命令行操作,开发者即可在个人电脑上体验 Llama2、Gemma 等主流开源模型的能力。结合其内置的 API 接口,Ollama 成为了构建本地 AI 应用、测试提示词工程以及探索大模型微调的理想工具。随着社区生态的丰富,更多模型和优化选项将持续加入,进一步拓展其在边缘计算场景的应用潜力。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online