简单易学的分离式部署小米智能家居Miloco方法

一、安装环境

  • Windows用户:安装WSL2以及Docker
  • macOS/Linux用户:安装Docker
    此处不再赘述,网上随便找个教程即可。特别地,对于Windows用户来说,你需要将 WSL2 的网络模式设置为 Mirrored。

二、使用Docker部署Miloco后端

以下均为bash命令。请Windows用户进入WSL2 / Linux、macOS用户进入终端操作:

mkdir miloco cd milico vi docker-compose.yml 

以下是compose的内容(不会使用vi的同学可以傻瓜式操作:先按i,再使用粘贴功能,然后按冒号,输入wq然后回车,记得关闭输入法):

services:backend:container_name: miloco-backend image: ghcr.nju.edu.cn/xiaomi/miloco-backend:latest network_mode: host expose:- ${BACKEND_PORT:-8000}environment:- BACKEND_HOST=${BACKEND_HOST:-0.0.0.0}- BACKEND_PORT=${BACKEND_PORT:-8000}- AI_ENGINE_HOST=${AI_ENGINE_HOST:-0.0.0.0}- AI_ENGINE_PORT=${AI_ENGINE_PORT:-8001}- BACKEND_LOG_LEVEL=${BACKEND_LOG_LEVEL:-info}- TZ=${TZ:-Asia/Shanghai}volumes:- ./data:/app/miloco_server/.temp - ./log/backend:/app/miloco_server/.temp/log restart: unless-stopped healthcheck:disable:true

再写个.env

vi .env 

以下是.env的内容:

TZ=Asia/Shanghai BACKEND_HOST=0.0.0.0 BACKEND_PORT=8000 BACKEND_LOG_LEVER=info AI_ENGINE_HOST=0.0.0.0 AI_ENGINE_PORT=8001 AI_ENGINE_LOG_LEVER=info 

继续执行命令:

mkdir -p data mkdir -p log/backend docker compose up -d 

静待下载镜像以及运行即可。

三、部署视觉大模型

对于小白用户(含非专业的AMD用户),此处建议使用LM StudioOllama来部署GGUF版的VL模型。
如果你有一张高性能NVIDIA显卡(RTX3090、RTX4090、RTX5090等显存>=24G的),想要更加专业稳定的服务,那么建议使用vLLMSGLang进行生产级服务部署。
此处为了照顾Windows及macOS小白用户,以简单易用的LM Studio举例。

下载LM Studio并安装

https://lmstudio.ai/

设置及下载模型

点击界面最右下角的设置图标,

  • App Settings-General-Language-简体中文
  • App Settings-Developer-启用本地 LLM 服务

检查环境安装情况

还是在设置页-Runtime

NVIDIA用户
  • Vulkan llama.cpp
  • CUDA llama.cpp
  • CPU llama.cpp
  • CUDA 12 llama.cpp
  • Harmony
AMD用户
  • Vulkan llama.cpp
  • ROCm llama.cpp
  • CPU llama.cpp
  • Harmony
苹果用户
  • Vulkan llama.cpp
  • Metal llama.cpp
  • MLX llama.cpp
  • CPU llama.cpp
  • Harmony

下载模型

Model Search-搜索框中输入:xiaomi-open-source/Xiaomi-MiMo-VL-Miloco-7B-GGUF
点击右下角Download即可

运行模型并提供API服务

  • 下载完成后点击页面左侧的“开发者”(一个绿色终端图标,位于对话图标下方)
  • 点击页面顶部加载模型
  • 你应该能够看到xiaomi-mimo-vl-miloco-7bREADY状态。
  • 页面顶部有一个Status: Stopped,点击开关,切换到Running
  • 点击Server Settings,打开“在网络中提供服务”。
  • 你将得到一个局域网地址,显示在右侧的Reachable at中,如:http://192.168.50.210:1234。复制它。

四、与Miloco对接

假设你的Docker宿主机IP为192.168.50.123,那么就访问https://192.168.50.123:8000/。首次设置会让你登录账号,登录后有一个callback地址,也填写192.168.50.123:8000

对接VL模型

点击模型管理-云端模型-添加模型:
Base URL输入http://192.168.50.210:1234/v1
API Key随便填
模型ID填xiaomi-mimo-vl-miloco-7b,再点击一下以添加。
完成后在上方“视觉理解大模型”中选择云端:xiaomi-mimo-vl-miloco-7b

对接规划模型

对于许多用户来说,走到这一步的时候,想必你的显存/统一内存已经所剩无几了吧!让我们白嫖一下硅基流动的大模型。

  • 访问https://cloud.siliconflow.cn/,注册并登录。
  • 点击左侧的API密钥,生成一个,复制出来(sk开头的)
  • 还是添加云端模型:
    Base URL输入https://api.siliconflow.cn/v1
    API Key填刚才生成的
    模型ID选Qwen/Qwen3-8B
    完成后在上方“规划大模型”中选择云端:Qwen/Qwen3-8B

回到AI中心,开始你的Miloco之旅吧!

五、一点Tips

  • 对于规划模型,你可以尝试使用更强的大模型,它们调用工具更稳定,比如Kimi K2Minimax M2等。Qwen3-8B的训练时间较早且对齐略有问题,可能不能很好地稳定调用工具。这只是一个便宜的入门之选。
  • 对于VL模型,有条件的同学可以尝试部署全精度版本,使用vLLM提供服务,会获得更棒的体验。
  • 官方文档中推荐的安装方式只是多集成了一个AI Engine,本质上就是对llama.cpp的封装。分离式部署大模型服务更灵活。
  • 吐槽:我曾经想着提个pr来适配更多平台,但发现代码里硬编码了许多CUDA/nvidia相关的东西,蒜鸟蒜鸟。
  • 有疑问可以联系我:[email protected],不保证时效性。

Read more

鸿蒙电商购物车全栈项目——用户增长、性能优化、Next原生合规

鸿蒙电商购物车全栈项目——用户增长、性能优化、Next原生合规

《鸿蒙APP开发从入门到精通》第15篇:鸿蒙电商购物车全栈项目——用户增长、性能优化、Next原生合规 📈⚡✅ 内容承接与核心价值 这是《鸿蒙APP开发从入门到精通》的第15篇——用户增长、性能优化、Next原生合规篇,100%承接第14篇的「订单管理、支付管理、AI原生」项目架构,完成鸿蒙电商购物车全栈项目的性能优化与合规性调整。 学习目标: * 掌握用户增长的设计与实现; * 实现用户行为分析、用户留存优化、用户转化提升; * 理解性能优化的设计与实现; * 实现启动优化、渲染优化、网络优化; * 掌握Next原生合规的设计与实现; * 实现代码规范、权限合规、数据合规; * 优化用户增长、性能优化、Next原生合规的用户体验(响应速度、数据安全、用户反馈)。 学习重点: * 鸿蒙APP用户增长的开发流程; * 用户增长的分类与使用场景; * 性能优化的设计与实现; * Next原生合规的设计与实现。 一、 用户增长基础 🎯 1.1 用户增长定义 用户增长是指通过各种手段提升用户的数量、

By Ne0inhk

3步轻松部署Stable Diffusion:Docker一键安装完整指南

3步轻松部署Stable Diffusion:Docker一键安装完整指南 【免费下载链接】stable-diffusion-webui-dockerEasy Docker setup for Stable Diffusion with user-friendly UI 项目地址: https://gitcode.com/gh_mirrors/st/stable-diffusion-webui-docker 想要体验强大的AI图像生成功能,但被复杂的安装配置吓退?现在通过Stable Diffusion WebUI Docker项目,只需简单几步就能在本地运行专业的Stable Diffusion系统。这个项目使用Docker容器技术,让AI图像生成变得触手可及。 🚀 为什么选择Docker部署Stable Diffusion Docker部署的优势: * ✅ 环境隔离:避免依赖冲突,保持系统干净 * ✅ 一键启动:无需手动安装Python、CUDA等复杂环境 * ✅ 跨平台兼容:支持Windows、macOS、Linux系统 * ✅ 快速更新:轻松升级到最新版本

By Ne0inhk

Vibe Coding的感想:从自动补全到 Copilot 的技术与职业全景

Vibe Coding 的「势」:从自动补全到 Copilot 的技术与职业全景 面向对象:小白:能看懂行业趋势、基础概念、如何上手技术大牛:能看到技术演进脉络、架构与能力边界、对个人能力模型的冲击 一、课程核心:什么是「势」,为什么在 AI Coding 时代特别重要? 1. 「势」的定义 文档给出的核心定义可以概括为: 势 = 事物未来发展轨迹的状态 这里区分两种「势」: * 行业势: 整个 AI Coding 行业往哪里走、技术怎么演进、有哪些玩家、典型应用场景是什么。 * 个体势: 在这样的浪潮下,个人要具备什么能力,如何让自己成为「超级个体」,而不是被时代淘汰。 关键思路:先看清「势」,再选择「顺势而为」

By Ne0inhk

FLUX.1-dev FP8量化版:中端显卡的AI绘画突破

FLUX.1-dev FP8量化版:中端显卡的AI绘画突破 在AI生成内容(AIGC)领域,高性能往往意味着高门槛。像FLUX.1-dev这样拥有120亿参数、基于Flow Transformer架构的多模态模型,一度只属于高端显卡用户的游戏——直到FP8量化版本的到来。 现在,哪怕你手头只有一块GTX 1660 Ti或RTX 3060,也能流畅运行这一前沿文生图系统。这不是“勉强能用”,而是真正意义上的高质量图像生成体验。背后的关键?正是FP8混合精度量化技术与对模型结构的深度理解相结合所释放出的巨大潜力。 从理论到落地:FP8如何打破性能魔咒 传统观念认为,降低计算精度必然牺牲画质。但FLUX.1-dev FP8版本用实践推翻了这一点。它没有简单地将所有权重转为FP8,而是采用了一套分层自适应量化策略: * 文本编码器保留FP16精度,确保复杂语义如“赛博朋克武士骑着霓虹摩托穿越雨夜东京”被准确解析; * Flow Transformer主干网络中,关键注意力头维持FP16,其余部分使用FP8压缩; * VAE解码模块全量FP8部署,大幅减轻后处理阶段的显存负担;

By Ne0inhk