Mac Mini M4 跑 AI 模型全攻略：从 Ollama 到 Stable Diffusion 的保姆级配置指南

Ne0inhk

22 Mar 2026 — 4 min read

Mac Mini M4 本地AI模型实战：从零构建你的个人智能工作站

最近身边不少朋友都在讨论，能不能用一台小巧的Mac Mini M4，搭建一个属于自己的AI开发环境。毕竟，不是每个人都有预算去租用云端的高性能GPU，也不是所有项目都适合把数据传到云端处理。我折腾了大概两周，从Ollama到Stable Diffusion，把整个流程走了一遍，发现M4芯片的潜力远超预期。这篇文章，就是把我踩过的坑、验证过的有效配置，以及一些提升效率的小技巧，毫无保留地分享给你。无论你是想本地运行大语言模型进行对话和创作，还是想离线生成高质量的AI图像，这篇指南都能帮你把Mac Mini M4变成一个得力的AI伙伴。

1. 环境准备与基础配置

在开始安装任何AI工具之前，确保你的系统环境是干净且高效的，这能避免后续无数莫名其妙的依赖冲突。Mac Mini M4出厂预装的是较新的macOS版本，但这还不够。

首先，打开“系统设置” -> “通用” -> “软件更新”，确保你的macOS已经更新到可用的最新版本。苹果对Metal图形API和神经网络引擎的优化通常会随着系统更新而提升，这对于后续运行Stable Diffusion这类需要图形加速的模型至关重要。

接下来是包管理工具Homebrew。你可以把它理解为macOS上的“应用商店命令行版”，绝大多数开发工具都能通过它一键安装。打开终端（Terminal），输入以下命令来安装或更新Homebrew：

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

安装完成后，建议运行一下更新，确保brew本身和它的核心库是最新的：

brew update && brew upgrade

提示：如果你的网络环境导致从GitHub拉取代码缓慢，可以尝试更换Homebrew的源。不过，对于后续从Hugging Face等平台下载模型权重，网络速度可能仍是主要瓶颈，可以考虑在夜间进行大型文件下载。

Python环境是AI世界的基石。虽然系统自带了Python 3，但为了隔离项目依赖，强烈建议使用虚拟环境。我推荐使用conda或miniconda来管理Python环境，因为它能更好地处理非Python的二进制依赖（比如某些C++编译的库）。通过Homebrew安装Miniconda：

brew install --cask miniconda

安装后，关闭并重新打开终端，然后创建一个专用于AI项目的环境，比如命名为ai_m4，并指定Python版本为3.10（这是一个在兼容性和新特性之间比较平衡的版本）：

conda create -n ai_m4 python=3.10 -y conda activate ai_m4

看到命令行提示符前面出现(ai_m4)，就说明你已经在这个虚拟环境里了。之后所有pip安装的包，都只会影响这个环境，不会搞乱系统或其他项目。

2. 大语言模型引擎：Ollama的部署与精调

Ollama的出现，极大地简化了在本地运行大型语言模型的过程。它就像一个模型容器，帮你处理好了模型加载、对话上下文管理这些繁琐的事情。在M4芯片的Mac Mini上安装Ollama非常简单。

如果你的系统是macOS，可以直接从Ollama官网下载.dmg安装包进行图形化安装，这对于新手来说最友好。但对于喜欢命令行控制一切的朋友，依然可以通过Homebrew安装：

brew install ollama

安装完成后，不需要复杂的配置，直接在终端启动Ollama服务：

ollama serve

服务会在后台运行。此时，打开另一个终端窗口，你就可以拉取并运行模型了。Ollama支持众多模型，从轻量级的到超大规模的都有。对于Mac Mini M4（我们假设是8GB或16GB统一内存的版本），起步可以从7B参数量的模型开始。例如，拉取并运行Mistral 7B模型：

ollama run mistral

第一次运行会先下载模型文件，之后就会进入一个交互式对话界面。你可以直接输入问题，比如“用Python写一个快速排序函数”。模型会开始生成回答。要退出对话，输入/bye。

但Ollama的能力远不止于此。你可以创建自定义的模型文件（M

VSCode Github Copilot使用OpenAI兼容的自定义模型方法

背景 VSCode 1.105.0发布了，但是用户最期待的Copilot功能却没更新！！！（Github Copilot Chat 中使用OpenAI兼容的自定义模型。） 🔥官方也关闭了Issue，并且做了回复，并表示未来也不会更新这个功能： “实际上，这个功能在可预见的未来只面向内部人员开放，作为一种“高级”实验功能。是否实现特定模型提供者的功能，我们交由扩展作者自行决定。仅限内部人员使用可以让我们快速推进，并提供一种可能并非始终百分之百完善，但能够持续改进并快速修复 bug 的体验。如果这个功能对你很重要，我建议切换到内部版本 insider。” 🤗 官方解决方案：安装VSCode扩展支持你们完全不用担心只需要在 VS Code 中安装扩展：OAI Compatible Provider for Copilot 通过任何兼容 OpenAI 的提供商驱动的 GitHub Copilot Chat，使用前沿开源大模型，如 Kimi K2、DeepSeek

文心一言4.5开源模型测评：ERNIE-4.5-0.3B超轻量模型部署指南

目录 * 引言：轻量化部署的时代突围 * 一.技术栈全景图：精准匹配的黄金组合 * 基础层：硬核环境支撑 * 框架层：深度优化套件 * 工具层：部署利器 * 二.详细步骤：精准匹配CUDA 12.6的黄金组合 * 准备环节 * 1.模型选择 * 2.配置实例 * 3.选择镜像 * 4.进入JupyterLab * 5.进入终端 * 6.连接到ssh * 系统基础依赖安装 * 1.更新源并安装核心依赖 * 2.安装 Python 3.12 和配套 pip * 解决 pip 报错 * 深度学习框架部署：PaddlePaddle-GPU深度调优 * FastDeploy-GPU企业级部署框架 * 1.安装FastDeploy核心组件 * 2.修复urllib3

AIGC-Fooocus部署实践：从本地手动配置到云端一键启用的深度剖析

摘要：本文旨在为人工智能生成内容（AIGC）领域的爱好者和开发者提供一份详尽的Fooocus部署指南。Fooocus作为一款基于Gradio的开源图像生成软件，凭借其简化的操作和高质量的输出，受到了广泛关注。我们将通过两种截然不同的部署路径——传统的本地手动环境配置与现代化的云平台一键部署——来全面探索Fooocus的落地过程。本文将深入剖析手动部署中的每一个步骤、每一条命令及其背后的技术逻辑，详细记录可能遇到的环境冲突与解决方案，并将其与云端部署的流畅体验进行客观对比，为读者在不同场景下选择最合适的部署策略提供坚实的技术参考。第一章：引言——Fooocus与AIGC部署的挑战随着Stable Diffusion等底层模型的开源，AIGC技术，特别是文生图领域，迎来了爆发式的增长。各种应用和WebUI层出不穷，极大地降低了普通用户接触和使用前沿AI模型的门槛。在众多工具中，由lllyasviel（ControlNet的作者）开发的Fooocus，以其独特的哲学脱颖而出。Fooocus的设计理念是“化繁为简”，它在保留Stable Diffusion XL（SDXL）强大能力的

一文详解llama.cpp：核心特性、技术原理到实用部署

目录 * 项目定位与核心特性：介绍llama.cpp是什么、核心设计哲学及主要特点。 * 核心架构与技术原理：分析其软件架构、GGML基础库、GGUF文件格式和量化技术。 * 环境部署与实践指南：提供安装部署的多种方式、基本运行方法和API服务配置。 * 进阶特性与扩展功能：介绍路由模式、工具调用、平台移植和企业级部署方案。 🎯 项目定位与核心特性 llama.cpp是一个用纯C/C++编写的开源大语言模型推理框架，最初为在本地运行Meta LLaMA模型而创建。它的核心设计哲学是极简、高效与可移植，旨在让大模型推理摆脱对GPU和复杂Python环境的依赖。核心设计哲学 1. 极简与可移植性：纯C/C++实现意味着几乎零外部依赖，能在从云服务器到树莓派的各种设备上编译运行。 2. CPU优先优化：虽然后期加入了强大的GPU支持，但其初心是让LLM在普通CPU上高效运行，这使其在众多依赖GPU的框架中独树一帜。 3. 极致性能追求：通过底层硬件指令集优化和量化技术，实现在有限硬件上的惊人性能表现。主要特点对比特性维度llama.cpp典型Pyth