Python + Ollama 本地跑大模型：零成本打造私有 AI 助手

优质文章学习记录

09 Apr 2026 — 7 min read

零 API 费用、零数据泄露风险、完全离线可用。本文带你从安装到实战，30 分钟跑起一个本地 AI 助手。

一、为什么要在本地跑大模型？

对比维度	云端 API（ChatGPT / Claude）	本地模型（Ollama）
费用	按量付费，$20/月起	完全免费
数据隐私	数据上传到云端	数据留在本地
网络依赖	必须联网	离线可用
模型选择	固定	自由切换开源模型
硬件要求	无	需要一定配置

38%27%18%12%5%选择本地大模型的理由（2026年开发者调查）数据隐私与安全零成本长期使用离线可用可自由定制微调其他

二、Ollama 是什么？

Ollama 是一个开源的本地大模型运行框架，核心特点：

一键拉取模型：类似 docker pull 的体验
自动适配硬件：根据你的显存/内存自动量化
兼容 OpenAI API 格式：现有代码几乎不用改
跨平台：Windows / macOS / Linux 都支持

用户提问

Python 代码

Ollama 本地服务

Qwen3 / Llama4 / DeepSeek

三、环境准备

3.1 硬件要求

模型规模	最低内存/显存	推荐配置
1.5B~3B（轻量）	4 GB	8 GB 内存即可
7B~8B（主流）	8 GB	16 GB 内存或 8 GB 显存
14B~32B（进阶）	16 GB	32 GB 内存或 16 GB 显存
70B+（旗舰）	48 GB	专业显卡 / 服务器

没有独立显卡也能跑！Ollama 支持 纯 CPU 推理，只是速度慢一些。

3.2 安装 Ollama

# macOS / Linux（一行搞定）curl-fsSL https://ollama.com/install.sh |sh# Windows：前往 https://ollama.com/download 下载安装包

验证安装：

ollama --version# 输出：ollama version is 0.6.x

3.3 拉取模型

# 推荐：Qwen3 8B（中文能力最强的小模型之一） ollama pull qwen3:8b # 备选：Llama 4 Scout 17B（Meta 最新开源模型） ollama pull llama4:scout17b # 轻量选择：Qwen3 4B（4GB 内存就能跑） ollama pull qwen3:4b # 查看已下载的模型 ollama list

3.4 安装 Python 依赖

pip install ollama

四、快速上手：5 行代码跑起来

4.1 最简对话

import ollama # 发送一条消息，获取回复 response = ollama.chat( model="qwen3:8b", messages=[{"role":"user","content":"用 Python 写一个快速排序算法"}])print(response["message"]["content"])

4.2 流式输出（打字机效果）

import ollama # stream=True 开启流式输出，体验更丝滑 stream = ollama.chat( model="qwen3:8b", messages=[{"role":"user","content":"解释一下 Python 的装饰器"}], stream=True)for chunk in stream:print(chunk["message"]["content"], end="", flush=True)

4.3 多轮对话（保持上下文）

import ollama # 维护对话历史 messages =[]defchat(user_input:str)->str: messages.append({"role":"user","content": user_input}) response = ollama.chat(model="qwen3:8b", messages=messages) assistant_msg = response["message"]["content"] messages.append({"role":"assistant","content": assistant_msg})return assistant_msg # 多轮对话print(chat("你好，我正在学 Python"))print("---")print(chat("刚才我说我在学什么来着？"))# 它能记住上下文

五、实战项目：打造命令行 AI 助手

下面是一个功能完整的本地 AI 助手，支持多轮对话、Markdown 渲染、历史记录。

5.1 项目结构

local-ai-assistant/ ├── assistant.py # 主程序 ├── config.py # 配置文件 └── chat_history.json # 对话历史（自动生成）

5.2 配置文件 config.py

# config.py MODEL_NAME ="qwen3:8b"# 使用的模型 SYSTEM_PROMPT ="""你是一个专业的 AI 编程助手。 你擅长 Python、数据分析、自动化办公。 回答要简洁实用，代码要可以直接运行。""" MAX_HISTORY =20# 最多保留的对话轮数

5.3 主程序 assistant.py

# assistant.pyimport json import ollama from datetime import datetime from config import MODEL_NAME, SYSTEM_PROMPT, MAX_HISTORY defload_history(filepath="chat_history.json"):"""加载对话历史"""try:withopen(filepath,"r", encoding="utf-8")as f:return json.load(f)except FileNotFoundError:return[]defsave_history(messages, filepath="chat_history.json"):"""保存对话历史"""withopen(filepath,"w", encoding="utf-8")as f: json.dump(messages, f, ensure_ascii=False, indent=2)defchat_stream(user_input:str, messages:list)->str:"""流式对话""" messages.append({"role":"user","content": user_input})print(f"\n\033[92m🤖 AI:\033[0m ", end="", flush=True) full_response ="" stream = ollama.chat(model=MODEL_NAME, messages=messages, stream=True)for chunk in stream: content = chunk["message"]["content"]print(content, end="", flush=True) full_response += content print("\n") messages.append({"role":"assistant","content": full_response})# 限制历史长度iflen(messages)> MAX_HISTORY *2+1: messages =[messages[0]]+ messages[-(MAX_HISTORY *2):]return full_response defmain():print("="*50)print(f" 本地 AI 助手 | 模型: {MODEL_NAME}")print(" 输入 /clear 清空历史 | /quit 退出")print("="*50)# 初始化对话 messages = load_history()ifnot messages: messages =[{"role":"system","content": SYSTEM_PROMPT}]whileTrue: user_input =input("\n\033[94m👤 你:\033[0m ").strip()ifnot user_input:continueif user_input =="/quit": save_history(messages)print("👋 再见！对话已保存。")breakif user_input =="/clear": messages =[{"role":"system","content": SYSTEM_PROMPT}] save_history(messages)print("🗑️ 对话历史已清空。")continue chat_stream(user_input, messages) save_history(messages)if __name__ =="__main__": main()

5.4 运行效果

python assistant.py

================================================== 本地 AI 助手 | 模型: qwen3:8b 输入 /clear 清空历史 | /quit 退出 ================================================== 👤 你: 帮我写一个 Python 脚本，监控某个文件夹的变化 🤖 AI: 好的，使用 `watchdog` 库可以轻松实现文件夹监控... （此处输出完整代码）

六、进阶玩法

6.1 让 AI 调用本地函数（Function Calling）

import ollama import json # 定义工具函数defget_weather(city:str)->str:"""模拟获取天气（可替换为真实 API）""" weather_data ={"北京":"晴天 22°C","上海":"多云 18°C","深圳":"大雨 28°C"}return weather_data.get(city,"未查询到该城市天气")defcalculate(expression:str)->str:"""安全计算数学表达式"""try: allowed =set("0123456789+-*/.() ")ifall(c in allowed for c in expression):returnstr(eval(expression))return"不安全的表达式"except Exception as e:returnf"计算错误: {e}"# 注册工具 tools =[{"type":"function","function":{"name":"get_weather","description":"获取指定城市的天气信息","parameters":{"type":"object","properties":{"city":{"type":"string","description":"城市名称"}},"required":["city"]}}},{"type":"function","function":{"name":"calculate","description":"计算数学表达式","parameters":{"type":"object","properties":{"expression":{"type":"string","description":"数学表达式"}},"required":["expression"]}}}]# 工具映射 tool_map ={"get_weather": get_weather,"calculate": calculate }# 对话 messages =[{"role":"user","content":"北京天气怎么样？顺便帮我算一下 25*36+128"}] response = ollama.chat(model="qwen3:8b", messages=messages, tools=tools)# 处理工具调用if response["message"].get("tool_calls"):for tool_call in response["message"]["tool_calls"]: func_name = tool_call["function"]["name"] func_args = tool_call["function"]["arguments"]print(f"🔧 调用工具: {func_name}({func_args})") result = tool_map[func_name](**func_args)print(f" 结果: {result}")

6.2 兼容 OpenAI SDK

# 如果你已有使用 OpenAI SDK 的代码，只需改一行from openai import OpenAI client = OpenAI( base_url="http://localhost:11434/v1",# 指向 Ollama api_key="ollama"# 随意填，不影响) response = client.chat.completions.create( model="qwen3:8b", messages=[{"role":"user","content":"Hello, who are you?"}])print(response.choices[0].message.content)

这意味着：所有基于 OpenAI API 的应用（LangChain、Dify、Cursor 等）都可以无缝切换到本地模型！

七、模型选择指南

32%25%20%13%10%2026年 Ollama 最受欢迎模型占比Qwen3 8B（中文最强）Llama 4 Scout（综合最佳）DeepSeek R2（推理之王）Gemma 4 27B（性价比高）Mistral Small（轻量首选）

模型推荐表

使用场景	推荐模型	大小	命令
中文对话 / 写作	Qwen3 8B	~5 GB	`ollama pull qwen3:8b`
英文编程	Llama 4 Scout	~10 GB	`ollama pull llama4:scout17b`
逻辑推理 / 数学	DeepSeek R2 8B	~5 GB	`ollama pull deepseek-r2:8b`
低配机器	Qwen3 1.7B	~1 GB	`ollama pull qwen3:1.7b`
代码专用	Qwen3-Coder 7B	~4 GB	`ollama pull qwen3-coder:7b`

八、常见问题

Q：没有显卡能跑吗？
A：能。Ollama 支持 CPU 推理，8B 模型在 16GB 内存的机器上完全可以跑，速度约 5-10 token/s。

Q：中文效果好还是英文效果好？
A：推荐 Qwen3 系列，它的中文能力是目前开源模型里最强的，远超同级别的 Llama。

Q：和 ChatGPT 比差多少？
A：8B 级别的模型大约相当于 GPT-3.5 的水平，日常问答够用，复杂推理和长文本还有差距。如果硬件允许，跑 32B 或 70B 的模型会更接近 GPT-4 级别。

Q：商用免费吗？
A：大部分模型（Qwen、Llama、Gemma）允许商用，但建议查看各模型的具体 License。

总结

Ollama 本地 AI 的核心优势： ├── 零成本 —— 不花一分钱 API 费用 ├── 零风险 —— 数据永远不会离开你的电脑 ├── 零门槛 —— pip install + ollama pull，5 分钟上手 └── 零妥协 —— 兼容 OpenAI API，现有生态无缝切换

现在就打开终端，花 5 分钟跑起你的第一个本地 AI 助手吧。

【案例共创】基于华为开发者空间-云开发环境（容器）与Versatile Agent构建AI轻量级智能笑话机器人助手

最新案例动态，请查阅【案例共创】基于华为开发者空间-云开发环境（容器）与Versatile Agent构建AI轻量级智能笑话机器人助手。小伙伴们快来进行实操吧！本案例由开发者：liujxu提供一、概述 1.1 适用对象 * 个人开发者 * 高校学生 1.2 案例流程本案例基于华为开发者空间-云开发环境（容器）与Versatile Agent，构建一个轻量级、趣味性强的AI应用——“智能笑话机器人”。该机器人能够理解用户的意图，并以一个幽默风趣的喜剧演员的口吻，为用户提供源源不断的笑话，为日常生活增添一份乐趣。通过本案例的实践，开发者可以体验到从Versatile Agent智能体（Agent）的创建、后端服务的开发，到最终Web应用部署的全过程。这不仅是一个有趣的AI应用开发入门教程，也是一个展示如何将大型语言模型（LLM）的能力快速封装成具体产品的典型示例。说明： 1. 登录华为开发者空间，VS Code安装Huawei Developer Space插件，远程创建、

基于STM32的智能家居安防系统设计与实现（完整项目）

基于STM32的智能家居安防系统设计与实现摘要随着物联网技术、嵌入式技术和智能控制技术的快速发展，智能家居安防系统逐渐成为现代家庭生活的重要组成部分，其能够实时监测家庭环境安全状态、防范安全隐患，为居民提供安全、便捷、舒适的居住环境。传统家庭安防方式多采用单一设备监测，存在功能分散、监测不全面、无法远程管控、报警响应滞后等问题，难以满足现代家庭对安防的多元化、智能化需求。本文设计并实现了一套基于STM32F103C8T6单片机的智能家居安防系统，整合密码锁、温湿度采集、煤气烟雾检测、火灾报警、防盗报警、远程照明控制、实时时钟显示、OLED本地显示、WiFi手机APP远程监控、APP远程时间修改、本地蜂鸣器报警与远程报警联动等11项核心功能，构建了完整的智能家居安防系统架构。系统以STM32F103C8T6为核心控制单元，搭载密码锁模块、温湿度传感器、煤气烟雾传感器、火焰传感器、人体红外/门磁传感器、蜂鸣器报警模块、LED照明模块、实时时钟模块、OLED显示模块及WiFi通信模块，通过多模块协同工作，实现家庭安防的全方位监测、本地与远程双重管控，兼顾安全性、便捷性和实用性。

75元！复刻Moji 2.0 小智 AI 桌面机器人，基于乐鑫ESP32开发板，内置DeepSeek、Qwen大模型

文末联系小编，获取项目源码 Moji 2.0 是一个栖息在你桌面上的“有灵魂的伴侣”，采用乐鑫 ESP32-C5开发板，配置 1.5寸 360x360 高清屏，FPC 插接方式，支持 5G Wi-Fi 6 极速连接，内置小智 AI 2.0 系统，主要充当智能电子宠物的角色，在你工作学习枯燥时，通过圆形屏幕上的动态表情包卖萌解压，提供情绪陪伴；同时它也是功能强大的AI 语音助手，支持像真人一样流畅的连续对话，随时为你查询天气、解答疑惑或闲聊解闷，非常适合作为极客桌搭或嵌入式学习的开源平台。 🛠️ 装配进化告别手焊屏幕的噩梦。全新设计的 FPC 插座连接，排线一插即锁，将复刻门槛降至最低。 🚀 性能进化主控升级为 ESP32-C5。支持 5GHz Wi-Fi 6，

lingbot-depth-vitl14企业应用指南：机器人避障系统中替代高精度LiDAR的降本方案

lingbot-depth-vitl14企业应用指南：机器人避障系统中替代高精度LiDAR的降本方案想让你的机器人“看”得更远、更准，又不想为昂贵的激光雷达买单？今天，我们就来聊聊一个能帮你省下大笔硬件成本的技术方案——lingbot-depth-vitl14深度估计模型。简单来说，这个模型能让你的机器人用普通的RGB摄像头，就“猜”出周围环境的深度信息，实现精准避障。它就像一个给机器人安装的“空间感知大脑”，把二维的彩色画面，转换成三维的距离地图。对于企业而言，这意味着什么？意味着你可以用几百块的摄像头，去实现过去需要几万甚至十几万激光雷达才能做到的部分功能。这不仅仅是省钱，更是为机器人、自动驾驶、AR/VR等应用打开了低成本、高性能的新大门。接下来，我会带你深入了解这个模型，看看它如何在机器人避障这个核心场景中，真正落地并创造价值。 1. 为什么机器人避障需要深度信息？在聊技术方案之前，我们先得搞清楚一个基本问题：机器人是怎么“看见”并避开障碍物的？想象一下，你蒙着眼睛在房间里走路，很容易撞到桌子椅子。机器人也一样，它需要知道“前面有没有东西”以及“那个