Ollama 本地大模型部署与使用指南

1、快速体验

1.1、下载 Ollama

访问 Ollama 官网进行下载。

1.2、下载模型

Ollama 支持直接下载开源模型。带 thinking 标签的模型支持深度思考，vision 具有多模态视觉功能，tools 支持 MCP 工具。

下载所需模型，例如 gemma3：

ollama run gemma3

打开命令行，输入 ollama run <模型名> 即可自动下载并启动对话。

1.3、模型命名规则

模型版本命名通常遵循：模型名 + 参数量 + 量化精度。

参数量越大，性能越好。
量化精度越高，原则上效果越好，但更占显存。

例如 gemma3-12b-it-q4_K_M 的含义是：Gemma 第 3 代，120 亿参数，指令微调版本，4-bit 量化，K-quant 量化中等规模。

1.4、更改模型下载地址（可选）

默认模型存储在本机系统盘。若需修改路径（如外接硬盘），可设置环境变量：

echo 'export OLLAMA_MODELS="/<文件夹路径>/models"' >> ~/.zshrc
source ~/.zshrc

1.5、基础使用

常用命令格式为 ollama + 操作名称。

查看已下载模型：
```
ollama list
```
运行模型（不存在则先下载）：
```
ollama run deepseek-r1:1.5b
```
删除模型：
```
ollama rm deepseek-r1:1.5b
```
查看详细运行指标（速度、Token 消耗等）：
```
ollama run gemma3:4b --verbose
```

运行结束后会输出指标，包括 prompt eval count（输入 token 数）、eval count（输出 token 数）及速率等。

1.6、图片识别

支持 Vision 功能的模型可进行图片识别。直接输入图片路径即可：

ollama run gemma3:4b /Users/Desktop/flower.jpg describe picture

注意：需使用带 vision 功能的模型（如 gemma3）。

2、自定义模型

适用于官网未收录的开源模型，或需要调整参数和系统提示词的场景。

2.1、创建模型

通过编写 Modelfile 档案说明来定义模型：

FROM：指定基座模型权重来源。
PARAMETER：设置参数，如温度（temperature）。
SYSTEM：设置系统提示词。

示例 Modelfile 内容：

FROM qwen3:32b
PARAMETER temperature 0.8
SYSTEM """
你是用户的 AI 助手，请用中文回答问题，保持专业且友好。
你会经常称呼自己的名字，情绪丰富，回答简洁。
"""

from langchain_community.chat_models import ChatOllama from langchain_community.chat_message_histories import SQLChatMessageHistory from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder class LangChainChatBot: def __init__(self, model_name="qwen3:1.7b", session_id="default"): """使用 LangChain 连接 Ollama 模型，并使用 SQLChatMessageHistory 存储历史对话 Args: model_name: 模型名称 session_id: 会话 ID """ self.session_id = session_id # 初始化模型 self.__llm = ChatOllama( model=model_name, base_url="http://localhost:11434", temperature=0.7 ) # 使用 LangChain 的 SQLChatMessageHistory self.__chat_history = SQLChatMessageHistory( session_id=session_id, connection_string="sqlite:///chat_history.db" ) # 创建提示模板 self.__prompt = ChatPromptTemplate.from_messages([ ("system", "你是一个有帮助的 AI 助手。请根据对话历史回答用户的问题。"), MessagesPlaceholder(variable_name="chat_history"), ("human", "{input}") ]) # 创建对话链 self.__chain = self.__prompt | self.__llm def chat(self, user_input: str) -> str: """进行对话""" try: response = self.__chain.invoke({ "chat_history": self.__chat_history.messages, "input": user_input }) # 保存消息到历史 self.__chat_history.add_user_message(user_input) self.__chat_history.add_ai_message(response.content) return response.content except Exception as e: return f"错误：{str(e)}" def main(): bot = LangChainChatBot(session_id="langchain_session") print("=== 使用 LangChain SQLChatMessageHistory ===") print(f"会话 ID: {bot.session_id}") while True: user_input = input("\n你：") response = bot.chat(user_input) print(f"AI: {response}") if __name__ == "__main__": main()

Ollama 本地大模型部署与使用指南