PythonAI算法

oMLX：Mac 本地大语言模型推理框架

oMLX 是专为 Apple Silicon Mac 优化的本地大语言模型推理框架，支持文本 LLM、视觉语言模型及 OCR 等。核心特性包括分层 KV 缓存（热缓存 RAM+ 冷缓存 SSD）、连续批处理调度及多模型协同服务。提供 macOS 原生应用、CLI 工具及管理后台 Web UI，兼容 OpenAI 和 Anthropic API。支持模型下载、基准测试及工具调用，适用于本地开发辅助、企业私有化部署及资源受限环境优化。

协议工匠发布于 2026/3/30更新于 2026/5/2333 浏览

一、项目定位

oMLX 是一个专为 Apple Silicon Mac 优化的本地大语言模型推理框架，核心目标是在便利性与可控性之间取得平衡，让本地 LLM 在实际编码、多轮对话等场景中真正可用。

GitHub: https://github.com/jundot/omlx
中文说明：https://github.com/jundot/omlx/blob/main/README.zh.md
官网：https://omlx.ai/

二、安装

方式一：下载 macOS 应用

下载 DMG 拖入 Applications，支持自动更新。下载地址：https://github.com/jundot/omlx/releases

方式二：Homebrew

brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx
# 升级到最新版本
brew update && brew upgrade omlx
# 作为后台服务运行（崩溃时自动重启）
brew services start omlx
# 可选：MCP（Model Context Protocol）支持
/opt/homebrew/opt/omlx/libexec/bin/pip install mcp

方式三：从源码安装

需 Python 3.10+ 与 Apple Silicon。

git clone https://github.com/jundot/omlx.git
cd omlx
pip install -e .
# 仅核心
pip install -e ".[mcp]"
# 含 MCP（Model Context Protocol）支持

三、快速开始

1、macOS 应用

从 Applications 文件夹启动 oMLX。欢迎界面会引导你完成三个步骤 — 模型目录设置、服务器启动、首个模型下载。

oMLX 欢迎界面

oMLX 菜单栏

2、CLI

omlx serve --model-dir ~/models

brew services start omlx # 启动（崩溃时自动重启）
brew services stop omlx # 停止
brew services restart omlx # 重启
brew services info omlx # 查看状态

端点	说明
`POST /v1/chat/completions`	聊天补全（流式）
`POST /v1/completions`	文本补全（流式）
`POST /v1/messages`	Anthropic Messages API
`POST /v1/embeddings`	文本嵌入
`POST /v1/rerank`	文档重排序
`GET /v1/models`	列出可用模型

模型系列	格式
Llama、Qwen、DeepSeek 等	JSON `<tool_call>`
Qwen3.5 系列	XML `<function=...>`
Gemma	`<start_function_call>`
GLM (4.7, 5)	`<arg_key>/<arg_value>` XML
MiniMax	Namespaced `<minimax:tool_call>`
Mistral	`[TOOL_CALLS]`
Kimi K2	`<`
Longcat	`<longcat_tool_call>`

~/models/
├── Step-3.5-Flash-8bit/
├── Qwen3-Coder-Next-8bit/
├── gpt-oss-120b-MXFP4-Q8/
├── Qwen3.5-122B-A10B-4bit/
└── bge-m3/

类型	模型
LLM	mlx-lm 支持的所有模型
VLM	Qwen3.5 系列、GLM-4V、Pixtral 及其他 mlx-vlm 模型
OCR	DeepSeek-OCR、DOTS-OCR、GLM-OCR
嵌入	BERT、BGE-M3、ModernBERT
重排序	ModernBERT、XLM-RoBERTa

# 已加载模型的内存限制
omlx serve --model-dir ~/models --max-model-memory 32GB
# 进程级内存限制（默认：auto = RAM - 8GB）
omlx serve --model-dir ~/models --max-process-memory 80%
# 启用 KV 块的 SSD 缓存
omlx serve --model-dir ~/models --paged-ssd-cache-dir ~/.omlx/cache
# 设置内存热缓存大小
omlx serve --model-dir ~/models --hot-cache-max-size 20%
# 调整批大小
omlx serve --model-dir ~/models --prefill-batch-size 8 --completion-batch-size 32
# 使用 MCP 工具
omlx serve --model-dir ~/models --mcp-config mcp.json
# API 密钥认证
omlx serve --model-dir ~/models --api-key your-secret-key
# 仅限 Localhost：在管理后台全局设置中跳过验证

FastAPI Server (OpenAI / Anthropic API)
│ ├── EnginePool (多模型、LRU 驱逐、TTL、手动加载/卸载)
│ ├── BatchedEngine (LLM，连续批处理)
│ ├── VLMEngine (视觉语言模型)
│ ├── EmbeddingEngine
│ └── RerankerEngine
│ ├── ProcessMemoryEnforcer (总内存限制、TTL 检查)
│ ├── Scheduler (FCFS，可配置批大小)
│ └── mlx-lm BatchGenerator
│ └── Cache Stack
    ├── PagedCacheManager (GPU，基于块，CoW，前缀共享)
    ├── Hot Cache (内存缓存，write-back)
    └── PagedSSDCacheManager (SSD 冷缓存，safetensors 格式)

git clone https://github.com/jundot/omlx.git
cd omlx
pip install -e ".[dev]"
pytest -m "not slow"

cd packaging
# 完整构建（venvstacks + 应用包 + DMG）
python build.py
# 跳过 venvstacks（仅代码更改）
python build.py --skip-venv
# 仅 DMG
python build.py --dmg-only

oMLX：Mac 本地大语言模型推理框架

一、项目定位

二、安装

方式一：下载 macOS 应用

方式二：Homebrew

方式三：从源码安装

三、快速开始

1、macOS 应用

2、CLI

oMLX：Mac 本地大语言模型推理框架

一、项目定位

二、安装

方式一：下载 macOS 应用

方式二：Homebrew

方式三：从源码安装

三、快速开始

1、macOS 应用

2、CLI

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3、Homebrew 服务

四、功能

1、管理后台

2、视觉语言模型

3、分层 KV 缓存（热缓存 + 冷缓存）

4、连续批处理

5、Claude Code 优化

6、多模型服务

7、模型级设置

8、内置聊天

9、模型下载器

10、性能基准测试

11、macOS 菜单栏应用

12、API 兼容性

13、工具调用与结构化输出

五、模型

六、CLI 配置

七、架构

八、开发

1、CLI 服务器

2、macOS 应用

九、分析

1、核心技术特点

1、分层 KV 缓存架构

2、连续批处理调度

3、多模型协同服务

2、关键功能模块

1）可视化管理后台

2）菜单栏原生应用

3）视觉与 OCR 能力

4）开发者友好配置

5）内置工具链

3、适用场景与价值

1）本地开发辅助

2）企业私有化部署

3）多模态任务处理

4）资源受限环境优化

4、技术栈与生态

5、致谢

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具