跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

OmniSteward:基于 LLM Agent 的智能家居与电脑控制方案

OmniSteward 是一款基于大语言模型的智能管家系统,支持语音和文字交互,能够控制智能家居设备及管理电脑程序。项目采用 Python 开发,集成 Qwen2.5、Silero VAD 等模型,通过 Flask 构建 Web 服务。支持命令行与 Web 两种模式,具备多模态交互、工具调用及自定义拓展能力,适用于家庭办公场景,旨在提升人机交互效率与智能化水平。

暖阳发布于 2026/4/7更新于 2026/5/1713 浏览
OmniSteward:基于 LLM Agent 的智能家居与电脑控制方案

项目概述

OmniSteward 是一个正在积极开发中的全能管家系统,它借助大语言模型的强大能力,实现了与用户的语音和文字交互,旨在帮助用户轻松控制智能家居设备以及管理电脑程序。该项目遵循 MIT License 开源协议,具备诸多亮点,如支持多轮对话、可调用工具执行复杂任务、兼容多种 LLM 模型且拓展性强,用户能够方便地自定义和分享工具。

UI 界面

功能特性

多模态交互体验

OmniSteward 提供了语音和文字两种交互模式,满足用户在不同场景下的需求。语音交互利用先进的语音识别技术,准确理解用户的语音指令;文字交互则为用户提供了精确表达复杂需求的途径。支持多轮对话功能,系统能够依据之前的对话内容和上下文,连续回答用户问题,使交互过程更加自然流畅。

强大的功能集成

  • 智能家居控制:与巴法云等平台对接,用户可通过语音或文字指令控制家中的灯光、电器、窗帘等设备。
  • 电脑程序管理:轻松实现电脑程序的启动、关闭以及运行状态查看。
  • 在线信息检索:借助 step_web_search 工具和 Kimi AI,用户能快速获取各类在线信息。
  • 文件管理:支持文件检索、读写、压缩文件夹和列出文件夹内容等操作。
  • 命令行操作:满足专业用户对命令行操作的需求。

模型灵活性与拓展性

支持多种大语言模型,用户可根据自身喜好和需求切换。同时,系统具有很强的拓展性,用户能够方便地自定义工具,还可以将其分享给其他用户。

技术架构

语音处理技术采用 pyaudio 和 sounddevice 等技术进行语音处理。AI 模型应用集成了 Qwen2.5、BGE Reranker 和 Silero VAD 等先进模型。Web 服务架构后端基于 Flask 框架构建 Web 服务,利用 zerorpc 实现高效的远程过程调用。浏览器自动化技术运用 Selenium 实现浏览器自动化操作。其他辅助技术requests 用于发送 HTTP 请求,beautifulsoup4 用于解析 HTML 和 XML 文档。

安装与使用

系统要求

确保您的设备已安装 Python 3.8 及以上版本。需安装 Chrome 浏览器,这是用于实现 Kimi AI 功能的必要组件。目前主要在 Windows 操作系统上进行了功能测试。

安装步骤

首先克隆仓库到本地:

git clone https://github.com/OmniSteward/OmniSteward.git

进入项目目录:

cd OmniSteward

安装依赖项:

pip install -r requirements.txt

环境变量配置

在启动前,需要配置一系列环境变量。打开项目中的 examples/env.cmd 文件进行设置:

OPENAI_API_BASE=your_api_base
OPENAI_API_KEY=your_api_key
SILICON_FLOW_API_KEY=your_api_key
BEMFA_UID=your_bemfa_uid
BEMFA_TOPIC=your_bemfa_topic
KIMI_PROFILE_PATH=path_to_chrome_profile
LOCATION=your_location
LLM_MODEL=your_llm_model

备注:获取 OPENAI 格式的 API 密钥和 API 基础 URL 参见官方文档。

启动方式

OmniSteward 支持两种使用方式,您可以根据实际需求选择合适的启动方式。

命令行模式(CLI)
  1. 麦克风语音输入模式: 首先,启动 VAD(语音活动检测)服务,在命令行中输入:

    python -m servers.vad_rpc
    

    启动 VAD 服务后,新开一个命令行窗口,执行以下命令使环境变量生效并运行 CLI:

    call examples\env.cmd python -m core.cli --config configs/cli.py
    
  2. 文字输入模式: 若您希望使用文字输入方式与 OmniSteward 交互,在配置好环境变量后,在命令行中输入:

    call examples\env.cmd python -m core.cli --query"打开网易云音乐"--config configs/cli.py
    
  3. 简单添加自定义工具: 如果您想要添加自定义工具,可以在命令行中使用类似的方式调用:

    call examples\env.cmd python -m core.cli --query"打印 你好"--config configs/cli_custom_tool.py
    
Web 模式
  1. 启动后端服务: 在项目根目录下,执行以下命令配置环境变量并启动后端服务:

    call examples\env.cmd python -m servers.steward --config configs/backend.py
    
  2. 启动前端服务: 前端服务的启动请详见 OmniSteward - Frontend 项目的相关说明。

  3. 使用: 完成后端和前端服务的启动后,使用 Chrome/Edge 浏览器,打开 http://localhost:8000,即可开始使用 OmniSteward。如果您需要在外网使用,由于 Chrome/Edge 默认禁止 HTTP 下的麦克风,您需要进行额外的设置。具体操作是,在浏览器地址栏中输入 chrome://flags/#unsafely_treat_insecure_origin_as_secure,将其值设置为 http://ip:port。

应用场景与未来展望

  1. 家庭生活场景:成为智能家居的控制中心。早晨,用户可通过语音指令让其打开窗帘、播放音乐;晚上,可控制灯光关闭、设置闹钟等。
  2. 办公学习场景:帮助用户快速启动办公软件、查找资料、管理文件。对于学生学习,可作为智能学习伙伴,解答学习问题、推荐学习资源。
  3. 未来发展趋势:随着技术的不断进步,OmniSteward 将在更多领域发挥重要作用。其模型将不断优化,功能持续拓展,为用户带来更加智能、便捷、舒适的生活体验。

结语

OmniSteward 作为一款充满潜力的全能 AI 管家系统,以其丰富的功能、先进的技术架构和广阔的应用前景,为我们展示了智能生活的美好画卷。尽管目前仍处于积极开发阶段,部分功能有待完善,但它已经迈出了坚实的步伐。在未来,随着技术的持续创新和应用场景的不断拓展,OmniSteward 有望成为智能生活领域的核心应用。

项目地址:https://github.com/OmniSteward/OmniSteward

UI 界面

目录

  1. 项目概述
  2. 功能特性
  3. 多模态交互体验
  4. 强大的功能集成
  5. 模型灵活性与拓展性
  6. 技术架构
  7. 安装与使用
  8. 系统要求
  9. 安装步骤
  10. 环境变量配置
  11. 启动方式
  12. 命令行模式(CLI)
  13. Web 模式
  14. 应用场景与未来展望
  15. 结语
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 算法进阶:前缀和的应用场景与细节
  • 位运算算法实战:从字符唯一性到缺失数字查找
  • C++ 多态核心原理与实现机制
  • 利用 AI 视觉模型优化 Unity 编辑器插件:从功能实现到界面美化
  • VR 大空间在文旅产业的创新应用
  • 基于 Rust 与 DeepSeek 大模型的智能 API Mock 生成器构建
  • Ubuntu 24.04 安装 JDK 21 三种方案详解
  • Redis 哈希(Hash)深度解析:Field-Value 层级、原子性与内部编码
  • C++分布式调度系统瓶颈分析与底层优化策略
  • NewStarCTF2025 Week1 Web 解题复盘
  • Git 2.53.0 在 Windows 上的安装与配置指南
  • 深入理解 C++ 异常机制
  • 基于 AI 快速开发 MCP 服务插件及部署测试指南
  • Flutter 使用 web_scraper 在 HarmonyOS 上实现网页抓取与数据解析
  • 基于 SpringBoot 的在线房屋租赁管理系统设计与实现
  • 卷积神经网络(CNN)理论、实现与应用详解
  • LeetCode 202 快乐数:快慢指针解法详解
  • Flutter 三方库 Bavard 鸿蒙化适配:语义化聊天协议与机器人逻辑
  • Windows下安装运用高效轻量本地龙虾机器人ZeroClaw
  • AI 视频生成模型构建、实现与调试指南

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online