简单易学的分离式部署小米智能家居Miloco方法

优质文章学习记录

08 Apr 2026 — 4 min read

一、安装环境

Windows用户：安装WSL2以及Docker
macOS/Linux用户：安装Docker
此处不再赘述，网上随便找个教程即可。特别地，对于Windows用户来说，你需要将 WSL2 的网络模式设置为 Mirrored。

二、使用Docker部署Miloco后端

以下均为bash命令。请Windows用户进入WSL2 / Linux、macOS用户进入终端操作：

mkdir miloco cd milico vi docker-compose.yml

以下是compose的内容（不会使用vi的同学可以傻瓜式操作：先按i，再使用粘贴功能，然后按冒号，输入wq然后回车，记得关闭输入法）：

services:backend:container_name: miloco-backend image: ghcr.nju.edu.cn/xiaomi/miloco-backend:latest network_mode: host expose:- ${BACKEND_PORT:-8000}environment:- BACKEND_HOST=${BACKEND_HOST:-0.0.0.0}- BACKEND_PORT=${BACKEND_PORT:-8000}- AI_ENGINE_HOST=${AI_ENGINE_HOST:-0.0.0.0}- AI_ENGINE_PORT=${AI_ENGINE_PORT:-8001}- BACKEND_LOG_LEVEL=${BACKEND_LOG_LEVEL:-info}- TZ=${TZ:-Asia/Shanghai}volumes:- ./data:/app/miloco_server/.temp - ./log/backend:/app/miloco_server/.temp/log restart: unless-stopped healthcheck:disable:true

再写个.env：

vi .env

以下是.env的内容：

TZ=Asia/Shanghai BACKEND_HOST=0.0.0.0 BACKEND_PORT=8000 BACKEND_LOG_LEVER=info AI_ENGINE_HOST=0.0.0.0 AI_ENGINE_PORT=8001 AI_ENGINE_LOG_LEVER=info

继续执行命令：

mkdir -p data mkdir -p log/backend docker compose up -d

静待下载镜像以及运行即可。

三、部署视觉大模型

对于小白用户（含非专业的AMD用户），此处建议使用LM Studio或Ollama来部署GGUF版的VL模型。
如果你有一张高性能NVIDIA显卡（RTX3090、RTX4090、RTX5090等显存>=24G的），想要更加专业稳定的服务，那么建议使用vLLM或SGLang进行生产级服务部署。
此处为了照顾Windows及macOS小白用户，以简单易用的LM Studio举例。

下载LM Studio并安装

https://lmstudio.ai/

设置及下载模型

点击界面最右下角的设置图标，

App Settings-General-Language-简体中文
App Settings-Developer-启用本地 LLM 服务

检查环境安装情况

还是在设置页-Runtime

NVIDIA用户

Vulkan llama.cpp
CUDA llama.cpp
CPU llama.cpp
CUDA 12 llama.cpp
Harmony

AMD用户

Vulkan llama.cpp
ROCm llama.cpp
CPU llama.cpp
Harmony

苹果用户

Vulkan llama.cpp
Metal llama.cpp
MLX llama.cpp
CPU llama.cpp
Harmony

下载模型

Model Search-搜索框中输入：xiaomi-open-source/Xiaomi-MiMo-VL-Miloco-7B-GGUF
点击右下角Download即可

运行模型并提供API服务

下载完成后点击页面左侧的“开发者”（一个绿色终端图标，位于对话图标下方）
点击页面顶部加载模型
你应该能够看到xiaomi-mimo-vl-miloco-7b是READY状态。
页面顶部有一个Status: Stopped，点击开关，切换到Running。
点击Server Settings，打开“在网络中提供服务”。
你将得到一个局域网地址，显示在右侧的Reachable at中，如：http://192.168.50.210:1234。复制它。

四、与Miloco对接

假设你的Docker宿主机IP为192.168.50.123，那么就访问https://192.168.50.123:8000/。首次设置会让你登录账号，登录后有一个callback地址，也填写192.168.50.123:8000。

对接VL模型

点击模型管理-云端模型-添加模型：
Base URL输入http://192.168.50.210:1234/v1
API Key随便填
模型ID填xiaomi-mimo-vl-miloco-7b，再点击一下以添加。
完成后在上方“视觉理解大模型”中选择云端：xiaomi-mimo-vl-miloco-7b

对接规划模型

对于许多用户来说，走到这一步的时候，想必你的显存/统一内存已经所剩无几了吧！让我们白嫖一下硅基流动的大模型。

访问https://cloud.siliconflow.cn/，注册并登录。
点击左侧的API密钥，生成一个，复制出来（sk开头的）
还是添加云端模型:
Base URL输入https://api.siliconflow.cn/v1
API Key填刚才生成的
模型ID选Qwen/Qwen3-8B
完成后在上方“规划大模型”中选择云端：Qwen/Qwen3-8B

回到AI中心，开始你的Miloco之旅吧！

五、一点Tips

对于规划模型，你可以尝试使用更强的大模型，它们调用工具更稳定，比如Kimi K2、Minimax M2等。Qwen3-8B的训练时间较早且对齐略有问题，可能不能很好地稳定调用工具。这只是一个便宜的入门之选。
对于VL模型，有条件的同学可以尝试部署全精度版本，使用vLLM提供服务，会获得更棒的体验。
官方文档中推荐的安装方式只是多集成了一个AI Engine，本质上就是对llama.cpp的封装。分离式部署大模型服务更灵活。
吐槽：我曾经想着提个pr来适配更多平台，但发现代码里硬编码了许多CUDA/nvidia相关的东西，蒜鸟蒜鸟。
有疑问可以联系我：[email protected]，不保证时效性。

VRCT：VRChat实时翻译与转录工具完整指南

VRCT：VRChat实时翻译与转录工具完整指南【免费下载链接】VRCTVRCT(VRChat Chatbox Translator & Transcription) 项目地址: https://gitcode.com/gh_mirrors/vr/VRCT VRCT（VRChat Chatbox Translator & Transcription）是一款专为VRChat设计的革命性软件，通过提供实时聊天翻译和语音转录功能，帮助全球用户打破语言障碍，享受无缝的跨语言交流体验。这款工具集成了先进的AI技术，让不同母语的用户能够在虚拟世界中自由对话。核心亮点功能 VRCT凭借其强大的功能组合，为用户提供了全方位的语言支持解决方案： * 实时双向翻译 - 支持用户输入的消息和目标语言之间的即时互译，确保信息准确传达 * 智能语音转录 - 从麦克风和扬声器实时转录语音为文本，捕捉每一个对话细节 * 多语言无缝切换 - 内置英语、中文、日语、韩语等多种语言支持 * VRChat深度集成 - 与VRChat无缝对接，无需复杂配置即可立即使用

OpenClaw安装和接入飞书机器人完整教程

OpenClaw安装和接入飞书机器人分三大部分组织回答： 1）先讲环境准备和OpenClaw基础安装（分阿里云和本地Windows两种场景）； 2）再讲飞书机器人配置（包括应用创建、通道添加、事件订阅）； 3）最后讲验证和配置AI模型。为了更直观，在部署方式对比、配置项说明等地方用表格呈现。这是一份完整的OpenClaw安装及接入飞书机器人的教程。将涵盖从环境准备、OpenClaw部署（含阿里云服务器和本地Windows两种方式）、AI模型（以阿里云百炼为例）配置，到最终在飞书开放平台创建并接入机器人的全流程。第一部分：准备工作与核心认知在开始动手前，我们需要先了解 OpenClaw 是什么，并准备好必要的账号和工具。 1.1 什么是 OpenClaw？ OpenClaw（昵称“小龙虾”，曾用名 ClawdBot / Moltbot）是一个开源的个人AI智能体框架。它本身不具备推理能力，需要对接大语言模型（如阿里云百炼、七牛云、OpenAI等）的API。它的核心价值在于： * 真正的执行能力：能通过“技能”

【硬核实战】Mac mini M4 部署 OpenClaw + Ollama 本地大模型：从零到一打通飞书机器人

文章目录 * 一、核心环境准备 * 二、避坑指南：环境初始化在 Mac 终端部署时，首要解决的是权限与路径问题。 * 1. 终端常用快捷键* `Control + C`：强制停止当前运行的命令（如安装卡死时）。 * 2. Node.js 环境修复若遇到 `zsh: command not found: openclaw`，说明 NVM 路径未加载。 * 3. 临时加载环境 * 4. 永久写入配置 * 三、模型选择：M4 性能调优 * 四、 OpenClaw 配置手术 (JSON 详解) * 五、飞书机器人接入：最后的临门一脚 * 六、运行与调试 * 启动 Gateway * 第一次发消息需授权 (Pairing) * 💡 结语

GLM-4-9B-Chat-1M环境部署：Transformers/vLLM/llama.cpp三推理框架对比选型

GLM-4-9B-Chat-1M环境部署：Transformers/vLLM/llama.cpp三推理框架对比选型想象一下，你手头有一份300页的PDF合同，或者一整年的公司财报，你想让AI帮你快速总结要点、提取关键信息，甚至回答基于这份长文档的复杂问题。过去，这几乎不可能——模型要么读不完，要么读完就“失忆”，要么需要昂贵的多卡集群。现在，情况变了。智谱AI开源的GLM-4-9B-Chat-1M模型，直接把上下文长度拉到了惊人的100万token，相当于一次性能读完200万汉字。更关键的是，它只需要一张24GB显存的消费级显卡（比如RTX 3090/4090）就能跑起来。模型有了，怎么把它用起来？这就是我们今天要解决的问题。市面上主流的推理框架有好几个：Transformers、vLLM、llama.cpp，它们各有各的脾气和特长。选错了，你可能面对的是缓慢的推理速度、爆满的显存，或者复杂的部署流程。这篇文章，我就带你亲手部署GLM-4-9B-Chat-1M，并横向对比这三个框架。我会告诉你，在什么硬件条件下，为了什么目的，应该选哪一个。目标很简单：让你用最少的折腾，