Ollama 本地部署大型语言模型完整指南 | 极客日志

Go / GolangAI算法

Ollama 本地部署大型语言模型完整指南

综述由AI生成Ollama 是基于 Go 语言开发的开源框架，支持在本地运行大型语言模型。 Ollama 的安装步骤、支持的模型列表及下载方法，涵盖了终端交互命令、API 接口调用（Generate 与 Chat）的流式与非流式实现。此外，文章补充了自定义模型文件的创建方式、服务部署配置及常见问题排查指南，帮助用户快速搭建本地 AI 环境并实现私有化部署。

机器人发布于 2025/2/7更新于 2026/5/3127 浏览

Ollama 本地部署大型语言模型完整指南

Ollama 简介

Ollama 是一个基于 Go 语言开发的开源框架，旨在简化本地运行大型语言模型（LLM）的过程。它允许用户在个人电脑上高效地加载、运行和管理各种开源模型，无需依赖云端服务。

官方文档：https://ollama.ai/docs GitHub 仓库：https://github.com/ollama/ollama

安装与配置

下载安装

访问 Ollama 官网根据操作系统类型选择对应的安装包。以下以 macOS 为例进行演示。

安装完成后，在终端输入 ollama 即可查看支持的命令列表。

Usage:
  ollama [flags]
  ollama [command]

Available Commands:
  serve       Start ollama
  create      Create a model from a Modelfile
  show        Show information for a model
  run         Run a model
  pull        Pull a model from a registry
  push        Push a model to a registry
  list        List models
  cp          Copy a model
  rm          Remove a model
  help        Help about any command

版本检查与模型管理

查看当前安装的 Ollama 版本：

ollama -v
# 输出示例：ollama version is 0.1.31

查看已下载的模型列表：

ollama list
# 输出示例：
# NAME     ID           SIZE   MODIFIED    
# gemma:2b b50d6c999e59 1.7 GB 3 hours ago

下载大模型

安装后默认会提示是否安装 llama2 模型。以下是 Ollama 支持的部分主流模型及其参数：

Model	Parameters	Size	Command
Llama 3	8B	4.7GB	`ollama run llama3`
Llama 3	70B	40GB	`ollama run llama3:70b`
Mistral	7B	4.1GB	`ollama run mistral`
Gemma	2B	1.4GB

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

ollama run gemma:2b

>>> 介绍一下 React

>>> /?

>>> /show info
Model details:
Family              gemma
Parameter Size      3B
Quantization Level  Q4_0

>>> /show template

curl http://localhost:11434/api/generate -d '{
  "model": "gemma:2b",
  "prompt":"介绍一下 React，20 字以内"
}'

curl http://localhost:11434/api/generate -d '{
  "model": "gemma:2b",
  "prompt":"介绍一下 React，20 字以内",
  "stream": false
}'

curl http://localhost:11434/api/chat -d '{
  "model": "gemma:2b",
  "messages": [
    { "role": "user", "content": "介绍一下 React，20 字以内" }
  ]
}'

FROM llama3
SYSTEM """你是一个专业的编程助手，请简洁回答技术问题。"""
PARAMETER temperature 0.7
PARAMETER num_ctx 2048

ollama create my-assistant -f Modelfile

ollama run my-assistant

ollama serve

export OLLAMA_HOST=0.0.0.0:11434
ollama serve

Ollama 本地部署大型语言模型完整指南

Ollama 本地部署大型语言模型完整指南

Ollama 简介

安装与配置

下载安装

版本检查与模型管理

下载大模型

更多推荐文章

相关免费在线工具

终端交互

常用会话命令

API 调用

Generate 接口

Chat 接口

自定义模型 (Modelfile)

部署与服务化

后台运行

环境变量配置

Web UI 集成

常见问题排查

总结

更多推荐文章

相关免费在线工具

Ollama 本地部署大型语言模型完整指南

Ollama 本地部署大型语言模型完整指南

Ollama 简介

安装与配置

下载安装

版本检查与模型管理

下载大模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

终端交互

常用会话命令

API 调用

Generate 接口

Chat 接口

自定义模型 (Modelfile)

部署与服务化

后台运行

环境变量配置

Web UI 集成

常见问题排查

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具