简单易学的分离式部署小米智能家居Miloco方法

优质文章学习记录

07 Apr 2026 — 4 min read

一、安装环境

Windows用户：安装WSL2以及Docker
macOS/Linux用户：安装Docker
此处不再赘述，网上随便找个教程即可。特别地，对于Windows用户来说，你需要将 WSL2 的网络模式设置为 Mirrored。

二、使用Docker部署Miloco后端

以下均为bash命令。请Windows用户进入WSL2 / Linux、macOS用户进入终端操作：

mkdir miloco cd milico vi docker-compose.yml

以下是compose的内容（不会使用vi的同学可以傻瓜式操作：先按i，再使用粘贴功能，然后按冒号，输入wq然后回车，记得关闭输入法）：

services:backend:container_name: miloco-backend image: ghcr.nju.edu.cn/xiaomi/miloco-backend:latest network_mode: host expose:- ${BACKEND_PORT:-8000}environment:- BACKEND_HOST=${BACKEND_HOST:-0.0.0.0}- BACKEND_PORT=${BACKEND_PORT:-8000}- AI_ENGINE_HOST=${AI_ENGINE_HOST:-0.0.0.0}- AI_ENGINE_PORT=${AI_ENGINE_PORT:-8001}- BACKEND_LOG_LEVEL=${BACKEND_LOG_LEVEL:-info}- TZ=${TZ:-Asia/Shanghai}volumes:- ./data:/app/miloco_server/.temp - ./log/backend:/app/miloco_server/.temp/log restart: unless-stopped healthcheck:disable:true

再写个.env：

vi .env

以下是.env的内容：

TZ=Asia/Shanghai BACKEND_HOST=0.0.0.0 BACKEND_PORT=8000 BACKEND_LOG_LEVER=info AI_ENGINE_HOST=0.0.0.0 AI_ENGINE_PORT=8001 AI_ENGINE_LOG_LEVER=info

继续执行命令：

mkdir -p data mkdir -p log/backend docker compose up -d

静待下载镜像以及运行即可。

三、部署视觉大模型

对于小白用户（含非专业的AMD用户），此处建议使用LM Studio或Ollama来部署GGUF版的VL模型。
如果你有一张高性能NVIDIA显卡（RTX3090、RTX4090、RTX5090等显存>=24G的），想要更加专业稳定的服务，那么建议使用vLLM或SGLang进行生产级服务部署。
此处为了照顾Windows及macOS小白用户，以简单易用的LM Studio举例。

下载LM Studio并安装

https://lmstudio.ai/

设置及下载模型

点击界面最右下角的设置图标，

App Settings-General-Language-简体中文
App Settings-Developer-启用本地 LLM 服务

检查环境安装情况

还是在设置页-Runtime

NVIDIA用户

Vulkan llama.cpp
CUDA llama.cpp
CPU llama.cpp
CUDA 12 llama.cpp
Harmony

AMD用户

Vulkan llama.cpp
ROCm llama.cpp
CPU llama.cpp
Harmony

苹果用户

Vulkan llama.cpp
Metal llama.cpp
MLX llama.cpp
CPU llama.cpp
Harmony

下载模型

Model Search-搜索框中输入：xiaomi-open-source/Xiaomi-MiMo-VL-Miloco-7B-GGUF
点击右下角Download即可

运行模型并提供API服务

下载完成后点击页面左侧的“开发者”（一个绿色终端图标，位于对话图标下方）
点击页面顶部加载模型
你应该能够看到xiaomi-mimo-vl-miloco-7b是READY状态。
页面顶部有一个Status: Stopped，点击开关，切换到Running。
点击Server Settings，打开“在网络中提供服务”。
你将得到一个局域网地址，显示在右侧的Reachable at中，如：http://192.168.50.210:1234。复制它。

四、与Miloco对接

假设你的Docker宿主机IP为192.168.50.123，那么就访问https://192.168.50.123:8000/。首次设置会让你登录账号，登录后有一个callback地址，也填写192.168.50.123:8000。

对接VL模型

点击模型管理-云端模型-添加模型：
Base URL输入http://192.168.50.210:1234/v1
API Key随便填
模型ID填xiaomi-mimo-vl-miloco-7b，再点击一下以添加。
完成后在上方“视觉理解大模型”中选择云端：xiaomi-mimo-vl-miloco-7b

对接规划模型

对于许多用户来说，走到这一步的时候，想必你的显存/统一内存已经所剩无几了吧！让我们白嫖一下硅基流动的大模型。

访问https://cloud.siliconflow.cn/，注册并登录。
点击左侧的API密钥，生成一个，复制出来（sk开头的）
还是添加云端模型:
Base URL输入https://api.siliconflow.cn/v1
API Key填刚才生成的
模型ID选Qwen/Qwen3-8B
完成后在上方“规划大模型”中选择云端：Qwen/Qwen3-8B

回到AI中心，开始你的Miloco之旅吧！

五、一点Tips

对于规划模型，你可以尝试使用更强的大模型，它们调用工具更稳定，比如Kimi K2、Minimax M2等。Qwen3-8B的训练时间较早且对齐略有问题，可能不能很好地稳定调用工具。这只是一个便宜的入门之选。
对于VL模型，有条件的同学可以尝试部署全精度版本，使用vLLM提供服务，会获得更棒的体验。
官方文档中推荐的安装方式只是多集成了一个AI Engine，本质上就是对llama.cpp的封装。分离式部署大模型服务更灵活。
吐槽：我曾经想着提个pr来适配更多平台，但发现代码里硬编码了许多CUDA/nvidia相关的东西，蒜鸟蒜鸟。
有疑问可以联系我：[email protected]，不保证时效性。

OpenClaw 入门指南：AI Agent 开发新范式

目录 * 一、OpenClaw 是什么？为什么它如此火爆？ * 1.1 项目背景与起源 * 1.2 核心定位与价值主张 * 1.3 与主流框架的技术对比 * 1.4 技术架构全景解析 * 二、快速部署：5 分钟上手体验 * 2.1 环境要求与准备 * 2.2 部署流程概览 * 2.3 详细安装步骤 * 2.4 常见安装问题排查 * 三、部署方案深度对比 * 3.1 四种主流部署方案 * 3.2 方案详细对比 * 3.3 方案一：本地开发机（零成本体验） * 3.4 方案二：

文心一言 4.5 开源深度剖析：性能中文双项碾压，开源引擎驱动行业变革，解锁大模型新范式

引言不知道大家关注到没？文心大模型 ERNIE 4.5 已开源并首发于 GitCode 平台！不同于以往的开源模型，百度这次一口气开源了 10 款模型，覆盖基础、对话、多模态、思考等多个方向，甚至将核心训练框架、分布式策略完全开放。在基准测试中，文心开源即刷榜，性能大幅超越 Qwen3 、 DeepSeek-V3 等模型；下面跟随博主一起从模型架构特性、技术分析、部署难度等来对文心模型全面解析一下！文章目录 * 引言 * 一、文心大模型 ERNIE 4.5 开源简介 * 1.1 开源模型版本介绍 * 1.2 基准测试表现 * 1.3 全面的工具生态链 * 二、文心大模型 ERNIE 4.5技术分析

【AI智能体】腾讯云服务器部署OpenClaw对接飞书实战详解

目录一、前言二、OpenClaw介绍 2.1 OpenClaw 是什么 2.2 OpenClaw 四大核心特点 2.3 OpenClaw 应用场景 2.3.1 个人生产力提升 2.3.2 一人公司/小微创业 2.3.3 企业级应用三、为什么使用云服务器部署四、基于腾讯云服务器部署OpenClaw 4.1 服务器选购 4.2 可视化配置OpenClaw 4.2.1 进入服务器控制台 4.2.2 配置全过程 4.3

量化、算子融合、内存映射：C语言实现AI推理的“三板斧“

量化、算子融合、内存映射：C语言实现AI推理的"三板斧" 摘要：做嵌入式AI开发的同学，大概率都遇到过这样的困境：训练好的AI模型（比如CNN），在PC上用TensorFlow/PyTorch跑起来流畅丝滑，可移植到单片机、MCU等边缘设备上，要么内存爆掉，要么推理延迟高到无法使用——毕竟边缘设备的资源太有限了：几百KB的RAM、几MB的Flash、没有GPU加速，甚至连浮点运算都要靠软件模拟。这时，依赖庞大的深度学习框架就成了“杀鸡用牛刀”，甚至根本无法运行。而C语言，作为嵌入式开发的“母语”，凭借其极致的性能控制、内存可控性和无 runtime 依赖的优势，成为边缘设备AI推理引擎的最佳选择。但纯C语言实现AI推理，绝不是简单地“用C重写框架代码”，关键在于掌握三大核心优化技术——这就是我们今天要讲的AI推理“三板斧”：量化、算子融合、内存映射。它们三者协同作用，能从“体积、速度、内存”三个维度彻底优化AI推理性能：