Ollama 本地 LLM 管理与 WebUI 及 Python/Java API 应用
Ollama 简介与定位
Ollama 是一个开源的 LLM(大型语言模型)服务工具,旨在简化在本地运行大语言模型的流程,降低使用门槛。它使得开发者、研究人员和爱好者能够在本地环境快速实验、管理和部署最新的开源大模型,如 Qwen2、Llama3、Phi3、Gemma2 等。
Ollama 与 Llama 的关系:Llama 是 Meta 公司开源的大语言模型系列,而 Ollama 是大语言模型(不限于 Llama)便捷的管理和运维工具。两者名称相似但功能不同,Ollama 支持多种模型格式和管理方式。

Ollama 安装与环境配置
1. 下载安装
访问官网首页可直接下载 Ollama 安装程序,支持 Windows、macOS 和 Linux 系统。安装过程与普通软件类似,安装完成后建议配置以下环境变量以优化性能和安全。
2. 常用系统参数设置
建议在系统环境变量中进行如下配置:
- OLLAMA_MODELS:模型文件存放目录。默认位于用户目录(Windows:
C:\Users\%username%\.ollama\models,Linux/Mac:~/.ollama/models)。若 C 盘空间紧张,建议修改至其他分区(如D:\OllamaModels),避免磁盘爆满影响系统运行。 - OLLAMA_HOST:服务监听地址。默认为
127.0.0.1(仅本机访问)。若需局域网内其他设备调用,建议设置为0.0.0.0,但需注意安全风险,生产环境应配合防火墙策略。 - OLLAMA_PORT:服务端口。默认为
11434。若端口冲突可修改为其他端口(如8080)。 - OLLAMA_ORIGINS:HTTP 请求来源白名单。半角逗号分隔。本地开发可设为
*允许所有来源,生产环境建议限制具体域名。 - OLLAMA_KEEP_ALIVE:模型加载后的存活时间。默认为
5m(5 分钟)。可设置为24h保持常驻内存以提高响应速度,或设为0以便请求结束后立即卸载释放显存。 - OLLAMA_NUM_PARALLEL:并发请求数。默认为
1。可根据硬件资源调整,多 GPU 环境下可适当增加以提升吞吐量。 - OLLAMA_MAX_QUEUE:请求队列长度。默认为
512。超过此长度的请求将被丢弃,高并发场景下需根据服务器负载调整。 - OLLAMA_DEBUG:调试日志开关。研发阶段可设为
1输出详细日志,便于排查连接或推理问题。 - OLLAMA_MAX_LOADED_MODELS:同时加载的最大模型数。默认为
1。若需频繁切换模型,可适当调高,但受限于显存大小。
管理本地已有大模型
Ollama 提供了丰富的命令行工具来管理本地模型。

