Python + Ollama 本地部署大模型构建私有 AI 助手 | 极客日志

PythonAI算法

Python + Ollama 本地部署大模型构建私有 AI 助手

Ollama 提供本地大模型运行框架，支持一键拉取模型及自动硬件适配。介绍环境准备、安装步骤及 Python 集成方法，涵盖对话、流式输出、多轮对话及命令行助手实战。内容包含 Function Calling 调用本地函数、OpenAI SDK 兼容方案，并提供模型选择指南与常见问题解答，实现零成本、高隐私的私有 AI 体验。

zhang发布于 2026/4/9更新于 2026/6/1422 浏览

一、为什么要在本地跑大模型？

对比维度	云端 API（ChatGPT / Claude）	本地模型（Ollama）
费用	按量付费，$20/月起	完全免费
数据隐私	数据上传到云端	数据留在本地
网络依赖	必须联网	离线可用
模型选择	固定	自由切换开源模型
硬件要求	无	需要一定配置

二、Ollama 是什么？

Ollama 是一个开源的本地大模型运行框架，核心特点：

一键拉取模型：类似 docker pull 的体验
自动适配硬件：根据你的显存/内存自动量化
兼容 OpenAI API 格式：现有代码几乎不用改
跨平台：Windows / macOS / Linux 都支持

三、环境准备

3.1 硬件要求

模型规模	最低内存/显存	推荐配置
1.5B~3B（轻量）	4 GB	8 GB 内存即可
7B~8B（主流）	8 GB	16 GB 内存或 8 GB 显存
14B~32B（进阶）	16 GB	32 GB 内存或 16 GB 显存
70B+（旗舰）	48 GB	专业显卡 / 服务器

没有独立显卡也能跑！Ollama 支持 纯 CPU 推理，只是速度慢一些。

3.2 安装 Ollama

# macOS / Linux（一行搞定）
curl -fsSL https://ollama.com/install.sh | sh

# Windows：前往 https://ollama.com/download 下载安装包

验证安装：

ollama --version
# 输出：ollama version is 0.6.x

3.3 拉取模型

# 推荐：Qwen3 8B（中文能力最强的小模型之一）
ollama pull qwen3:8b

# 备选：Llama 4 Scout 17B（Meta 最新开源模型）
ollama pull llama4:scout17b

# 轻量选择：Qwen3 4B（4GB 内存就能跑）
ollama pull qwen3:4b

# 查看已下载的模型
ollama list

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

pip install ollama

import ollama

# 发送一条消息，获取回复
response = ollama.chat(
    model="qwen3:8b",
    messages=[{"role":"user","content":"用 Python 写一个快速排序算法"}]
)
print(response["message"]["content"])

import ollama

# stream=True 开启流式输出，体验更丝滑
stream = ollama.chat(
    model="qwen3:8b",
    messages=[{"role":"user","content":"解释一下 Python 的装饰器"}],
    stream=True
)
for chunk in stream:
    print(chunk["message"]["content"], end="", flush=True)

import ollama

# 维护对话历史
messages = []

def chat(user_input: str) -> str:
    messages.append({"role": "user", "content": user_input})
    response = ollama.chat(model="qwen3:8b", messages=messages)
    assistant_msg = response["message"]["content"]
    messages.append({"role": "assistant", "content": assistant_msg})
    return assistant_msg

# 多轮对话
print(chat("你好，我正在学 Python"))
print("---")
print(chat("刚才我说我在学什么来着？"))
# 它能记住上下文

local-ai-assistant/
├── assistant.py # 主程序
├── config.py # 配置文件
└── chat_history.json # 对话历史（自动生成）

# config.py
MODEL_NAME = "qwen3:8b"  # 使用的模型
SYSTEM_PROMPT = """
你是一个专业的 AI 编程助手。
你擅长 Python、数据分析、自动化办公。
回答要简洁实用，代码要可以直接运行。
"""
MAX_HISTORY = 20  # 最多保留的对话轮数

# assistant.py
import json
import ollama
from datetime import datetime
from config import MODEL_NAME, SYSTEM_PROMPT, MAX_HISTORY

def load_history(filepath="chat_history.json"):
    """加载对话历史"""
    try:
        with open(filepath, "r", encoding="utf-8") as f:
            return json.load(f)
    except FileNotFoundError:
        return []

def save_history(messages, filepath="chat_history.json"):
    """保存对话历史"""
    with open(filepath, "w", encoding="utf-8") as f:
        json.dump(messages, f, ensure_ascii=False, indent=2)

def chat_stream(user_input: str, messages: list) -> str:
    """流式对话"""
    messages.append({"role": "user", "content": user_input})
    print(f"\n\033[92m🤖 AI:\033[0m ", end="", flush=True)
    full_response = ""
    stream = ollama.chat(model=MODEL_NAME, messages=messages, stream=True)
    for chunk in stream:
        content = chunk["message"]["content"]
        print(content, end="", flush=True)
        full_response += content
    print("\n")
    messages.append({"role": "assistant", "content": full_response})
    # 限制历史长度
    if len(messages) > MAX_HISTORY * 2 + 1:
        messages = [messages[0]] + messages[-(MAX_HISTORY * 2):]
    return full_response

def main():
    print("="*50)
    print(f" 本地 AI 助手 | 模型：{MODEL_NAME}")
    print(" 输入 /clear 清空历史 | /quit 退出")
    print("="*50)
    # 初始化对话
    messages = load_history()
    if not messages:
        messages = [{"role": "system", "content": SYSTEM_PROMPT}]
    while True:
        user_input = input("\n\033[94m👤 你:\033[0m ").strip()
        if not user_input:
            continue
        if user_input == "/quit":
            save_history(messages)
            print("👋 再见！对话已保存。")
            break
        if user_input == "/clear":
            messages = [{"role": "system", "content": SYSTEM_PROMPT}]
            save_history(messages)
            print("🗑️ 对话历史已清空。")
            continue
        chat_stream(user_input, messages)
        save_history(messages)

if __name__ == "__main__":
    main()

python assistant.py

==================================================
本地 AI 助手 | 模型：qwen3:8b
输入 /clear 清空历史 | /quit 退出
==================================================
👤 你：帮我写一个 Python 脚本，监控某个文件夹的变化
🤖 AI：好的，使用 `watchdog` 库可以轻松实现文件夹监控...
（此处输出完整代码）

import ollama
import json

# 定义工具函数
def get_weather(city: str) -> str:
    """模拟获取天气（可替换为真实 API）"""
    weather_data = {"北京": "晴天 22°C", "上海": "多云 18°C", "深圳": "大雨 28°C"}
    return weather_data.get(city, "未查询到该城市天气")

def calculate(expression: str) -> str:
    """安全计算数学表达式"""
    try:
        allowed = set("0123456789+-*/.() ")
        if all(c in allowed for c in expression):
            return str(eval(expression))
        return "不安全的表达式"
    except Exception as e:
        return f"计算错误：{e}"

# 注册工具
tools = [
    {"type": "function", "function": {
        "name": "get_weather",
        "description": "获取指定城市的天气信息",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string", "description": "城市名称"}
            },
            "required": ["city"]
        }
    }},
    {"type": "function", "function": {
        "name": "calculate",
        "description": "计算数学表达式",
        "parameters": {
            "type": "object",
            "properties": {
                "expression": {"type": "string", "description": "数学表达式"}
            },
            "required": ["expression"]
        }
    }}
]

# 工具映射
tool_map = {"get_weather": get_weather, "calculate": calculate}

# 对话
messages = [{"role": "user", "content": "北京天气怎么样？顺便帮我算一下 25*36+128"}]
response = ollama.chat(model="qwen3:8b", messages=messages, tools=tools)

# 处理工具调用
if response["message"].get("tool_calls"):
    for tool_call in response["message"]["tool_calls"]:
        func_name = tool_call["function"]["name"]
        func_args = tool_call["function"]["arguments"]
        print(f"🔧 调用工具：{func_name}({func_args})")
        result = tool_map[func_name](**func_args)
        print(f" 结果：{result}")

# 如果你已有使用 OpenAI SDK 的代码，只需改一行
from openai import OpenAI
client = OpenAI(
    base_url="http://localhost:11434/v1",  # 指向 Ollama
    api_key="ollama"  # 随意填，不影响
)
response = client.chat.completions.create(
    model="qwen3:8b",
    messages=[{"role": "user", "content": "Hello, who are you?"}]
)
print(response.choices[0].message.content)

使用场景	推荐模型	大小	命令
中文对话 / 写作	Qwen3 8B	~5 GB	`ollama pull qwen3:8b`
英文编程	Llama 4 Scout	~10 GB	`ollama pull llama4:scout17b`
逻辑推理 / 数学	DeepSeek R2 8B	~5 GB	`ollama pull deepseek-r2:8b`
低配机器	Qwen3 1.7B	~1 GB	`ollama pull qwen3:1.7b`
代码专用	Qwen3-Coder 7B	~4 GB	`ollama pull qwen3-coder:7b`

Python + Ollama 本地部署大模型构建私有 AI 助手

一、为什么要在本地跑大模型？

二、Ollama 是什么？

三、环境准备

3.1 硬件要求

3.2 安装 Ollama

3.3 拉取模型

更多推荐文章

相关免费在线工具

3.4 安装 Python 依赖

四、快速上手：5 行代码跑起来

4.1 最简对话

4.2 流式输出（打字机效果）

4.3 多轮对话（保持上下文）

五、实战项目：打造命令行 AI 助手

5.1 项目结构

5.2 配置文件 config.py

5.3 主程序 assistant.py

5.4 运行效果

六、进阶玩法

6.1 让 AI 调用本地函数（Function Calling）

6.2 兼容 OpenAI SDK

七、模型选择指南

模型推荐表

八、常见问题

总结

更多推荐文章

相关免费在线工具

Python + Ollama 本地部署大模型构建私有 AI 助手

一、为什么要在本地跑大模型？

二、Ollama 是什么？

三、环境准备

3.1 硬件要求

3.2 安装 Ollama

3.3 拉取模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.4 安装 Python 依赖

四、快速上手：5 行代码跑起来

4.1 最简对话

4.2 流式输出（打字机效果）

4.3 多轮对话（保持上下文）

五、实战项目：打造命令行 AI 助手

5.1 项目结构

5.2 配置文件 config.py

5.3 主程序 assistant.py

5.4 运行效果

六、进阶玩法

6.1 让 AI 调用本地函数（Function Calling）

6.2 兼容 OpenAI SDK

七、模型选择指南

模型推荐表

八、常见问题

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具