跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

Ollama 本地大语言模型部署与使用指南

Ollama 是一个开源项目,旨在简化本地大语言模型的运行。它支持多种硬件配置,提供命令行交互及模型管理功能,并能与 LangChain 等框架集成。 Ollama 的核心特性、安装方法、常用命令、API 调用方式以及通过 Open WebUI 构建本地对话界面的步骤,帮助开发者快速在本地环境部署和测试 AI 模型。

极光发布于 2025/2/6更新于 2026/6/722 浏览
Ollama 本地大语言模型部署与使用指南

Ollama:本地大语言模型解决方案

在人工智能领域,大语言模型(LLM)因其在自然语言处理上的强大能力而备受瞩目。然而,这些模型往往需要大量的计算资源和网络连接,限制了它们在本地环境的应用。Ollama 的推出,为这一问题提供了解决方案。作为一个开源平台,Ollama 允许用户在本地机器上轻松设置和运行 LLM,简化了整个流程,使得本地部署语言模型变得更加可行和高效。

简介

Ollama 是一个开源的人工智能模型项目,专注于开发高质量的语言模型。该项目的目标是使先进的自然语言处理技术更加普及和易于获取,同时促进研究社区的合作与创新。Ollama 项目提供了多种语言模型的训练代码、数据集以及预训练好的模型权重,以便研究人员和开发者能够快速构建和部署自己的语言生成应用。

Ollama 的核心特性

开源与易用性

Ollama 的最大优势之一是它的开源性质。这意味着开发者社区可以共同参与到平台的开发和优化中来,同时也保证了软件的透明度和可定制性。Ollama 的易用性体现在它简化了下载、安装和与 LLM 交互的过程。用户只需通过简单的命令行操作,即可在本地机器上启动和运行模型。

REPL 交互环境

Ollama 内置了 REPL(Read-Eval-Print Loop)功能,这是一种交互式编程环境,允许用户输入代码并立即看到结果。这种即时反馈机制极大地提高了开发效率,使得调试和实验变得更加便捷。

模型管理

Ollama 提供了一套模型管理工具,用户可以通过命令行轻松查看、下载、删除和运行不同的语言模型。这包括一个在线模型库,用户可以浏览并了解各种模型的详细信息,如模型大小、参数等。

硬件兼容性

Ollama 支持多种硬件配置,无论是 GPU 还是 CPU,都能运行语言模型。这为用户提供了灵活的选择,即使在没有高性能 GPU 的情况下,也能在 CPU 上运行模型,尽管速度会有所减慢。

硬件需求

获取 Ollama 中可用模型的列表前,需确认硬件是否满足要求。

GPU 支持

Ollama 支持 NVIDIA CUDA、AMD ROCm 以及 Apple Silicon (Metal) 加速。对于大型模型,建议配备以下显存:

  • 7B 模型:至少 8GB 显存或内存。
  • 13B 模型:至少 16GB 显存或内存。
  • 33B 模型:至少 32GB 显存或内存。

若使用集成显卡或无独立 GPU,系统内存(RAM)将作为主要计算资源,性能会相应降低。

CPU 模式

对于大型模型,如 7B、13B 或 33B,Ollama 建议至少分别有 8GB、16GB 和 32GB 的 RAM。如果内存不足,模型加载可能会失败或运行极其缓慢。

安装与启动

操作系统支持

Ollama 支持 macOS、Linux 和 Windows 系统。

  • macOS: 可通过 Homebrew 安装 (brew install ollama) 或直接下载 .dmg 安装包。
  • Linux: 使用官方脚本安装 (curl -fsSL https://ollama.com/install.sh | sh)。
  • Windows: 下载 .msi 安装包进行安装,安装后服务将在后台自动运行。

快速启动

下载 Ollama 后,用户可以通过命令行界面(Terminal)快速启动模型。例如,使用 ollama run phi3 命令下载并运行模型 phi3。如果需要先下载模型再运行,可以使用 ollama pull phi3 命令。

在 Ollama 的 REPL 环境中,用户可以通过输入 /? 来查看所有可用的命令和快捷方式。这包括退出 REPL 的命令 /bye,以及获取快捷方式列表的命令 /? shortcuts。

常用命令

  • ollama ls: 显示拥有的模型。
  • ollama rm <modelname>: 删除指定模型。
  • ollama status: 查看模型状态及服务器运行情况。
  • ollama logs: 查看模型日志,用于排查问题。
  • ollama serve: 手动启动 Ollama 服务进程。
  • ollama create: 基于 Modelfile 创建自定义模型。

API 集成

Ollama 提供了一个本地 REST API,允许外部应用程序通过 HTTP 请求与模型交互。默认监听端口为 11434。

调用示例

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?"
}'

此接口支持流式输出,适合构建实时对话应用。

LangChain 集成

Ollama 支持使用 LangChain 交互。使用 Llama3 为例:

准备工作

ollama pull llama3
pip install langchain langchain-ollama ollama

使用示例

from langchain_ollama import OllamaLLM
  
model = OllamaLLM(model="llama3")
  
response = model.invoke(input="What's up?")
print(response)
  
"""
Not much! Just an AI, waiting to chat with you. How about you? What's new and exciting in your world?
"""

开始一个简单对话:

from langchain_ollama import OllamaLLM  
from langchain_core.prompts import ChatPromptTemplate  
  
template = """  
User will ask you questions. Answer it.  
  
The history of this conversation: {context}  
  
Question: {question}  
  
Answer:
"""  
  
model = OllamaLLM(model="llama3")
prompt = ChatPromptTemplate.from_template(template)
chain = prompt | model  
  
def chat():
    context = ""
    print("Welcome to the AI Chatbot! Type 'exit' to quit.")
    while True:
        question = input("You: ")
        if question.lower() == "exit":
            break
        response = chain.invoke({"context":context, "question": question})
        print(f"AI: {response}")
        context += f"\nUser: {question}\nAI: {response}"  
  
chat()

Web 使用

除了命令行,还可以使用 Open WebUI 等前端界面来更好地管理模型和对话。

安装 Open WebUI

推荐使用 Docker 容器化部署 Open WebUI,以确保环境隔离和便捷更新。

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

安装完成后,访问 http://localhost:3000 即可进入 Web 界面。首次登录可能需要设置管理员账号,之后即可连接本地 Ollama 服务进行对话。

结语

Ollama 作为本地运行语言模型的工具,不仅降低了对云端资源的依赖,还提高了数据处理的安全性和响应速度。它通过提供 REPL 环境、模型管理命令和与 LangChain 的交互能力,极大地丰富了用户与语言模型的交互方式。随着技术的不断发展,Ollama 有望进一步推动本地 AI 应用的普及和深入,为开发者和企业提供更多的可能性。

通过合理的硬件配置和正确的部署步骤,开发者可以在个人电脑上构建强大的私有化 AI 应用,无需担心数据隐私泄露或网络延迟问题。

目录

  1. Ollama:本地大语言模型解决方案
  2. 简介
  3. Ollama 的核心特性
  4. 开源与易用性
  5. REPL 交互环境
  6. 模型管理
  7. 硬件兼容性
  8. 硬件需求
  9. GPU 支持
  10. CPU 模式
  11. 安装与启动
  12. 操作系统支持
  13. 快速启动
  14. 常用命令
  15. API 集成
  16. 调用示例
  17. LangChain 集成
  18. 准备工作
  19. 使用示例
  20. Web 使用
  21. 安装 Open WebUI
  22. 结语
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Java 线程池概念与工作原理详解
  • AI Skills 核心概念与实战搭建指南
  • C++ STL list 容器详解:使用与模拟实现
  • 短波发射台共址 DRM 监测:射频前端的挑战与应对
  • AI 时代国产数据库发展趋势与金仓数据库技术实践
  • Whisper-large-v3 常见问题解析与语音识别避坑指南
  • Lunar Python 快速上手教程:农历日期转换
  • 基于 UniApp 与 Vue 的纯前端奶茶点餐系统架构解析
  • 前端开发高频面试场景题整理
  • C++ 继承机制详解:概念、规则与菱形继承
  • OpenCode Superpowers 插件安装与使用指南
  • openMES 开源制造执行系统:部署与生产监控指南
  • 动态规划算法核心解析与实战
  • 前端核心知识点与面试指南
  • SpringBoot 中药材进存销管理系统设计与实现
  • 算法:前缀和原理
  • OpenClaw 配置指南:5 步让 AI 助手真正能干活
  • Z-Image-Turbo 本地 AI 绘画工具 UI 实测与使用指南
  • RTD1296PB 与 RK3568:NAS 与智能家居芯片选型实战对比
  • BLACKBOX AI 与 Cursor 对比:AI 编程工具体验分析

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online