最近几年,随着 ChatGPT 的发布,越来越多的大模型涌现,为用户带来知识问答、代码编写、语音合成、图像合成及智能对话等便利。得益于大模型框架及量化技术的发展,目前个人电脑也能部署和推理大模型,兼顾安全与隐私。
本文介绍如何在个人电脑上通过 Ollama 和 Open-WebUI 搭建属于自己的多模态大模型,支持结合本地知识库进行智能问答、图像分析,并配合 Dify 构建本地智能体。支持 Windows、macOS、Linux 系统。
一、说明
本文以 macOS 为例介绍部署教程,其他系统操作类似。
1.1 Ollama 介绍
Ollama 是一个开源框架,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。
主要特点:
- 简化部署:旨在简化在 Docker 容器中部署 LLM 的过程,非专业用户也能方便管理。
- 轻量级与可扩展:资源占用小,具备良好的可扩展性,允许根据硬件条件调整配置。
- API 支持:提供简洁 API,降低与模型交互的技术门槛。
- 预构建模型库:包含一系列预先训练好的模型,无需从头训练。
- 跨平台支持:提供 macOS、Windows、Linux 及 Docker 安装指南。
使用场景:
- 聊天机器人
- 文本生成
- 问答系统
- 代码生成
1.2 Open-WebUI 介绍
Open WebUI(前身为 Ollama WebUI)是专为 LLM 设计的自托管 Web 管理工具,提供直观、高效的大模型交互体验。
主要特点:
- 离线运行:完全离线运行,提高数据安全性。
- 多模型支持:支持 Ollama 和兼容 OpenAI 的 API。
- 直观界面:聊天界面灵感来源于 ChatGPT,响应式设计。
- 轻松设置:支持 Docker 或 Kubernetes 无缝安装。
应用场景:
- 客户服务聊天机器人
- 内容创作(新闻、博客、诗歌)
- 教育咨询问答
- 辅助编程代码生成
二、安装 Docker
直接在官网下载 Docker Desktop 安装包,根据操作系统选择对应版本。注意确认官网地址,避免下载到恶意软件。
三、安装和配置 Ollama
3.1 安装 Ollama
在官网下载对应系统的安装包。安装完成后,在命令行执行以下命令验证:
ollama
若出现帮助信息提示,则说明安装成功。
3.2 下载多模态大模型
根据显卡(MacOS M 芯片为内存)大小选择模型。经验上 12G 显存可运行约 7B 模型。Ollama 模型库包含 llama3.2、qwen2.5、gemma2 等热门模型。
本文主要下载 llava:13b 和 qwen:14b-chat 两个模型用于多模态演示。在命令行执行:
# 下载 llava:13b 模型
ollama pull llava:13b
# 下载 qwen:14b-chat
ollama pull qwen:14b-chat
3.3 Ollama 开启远程访问
3.3.1 Windows 设置
在「电脑」->「属性」->「高级系统设置」->「环境变量」中,添加记录: 变量:OLLAMA_HOST,值:0.0.0.0


