OmniSteward：基于 LLM Agent 的智能家居与电脑控制方案

项目简介

OmniSteward 是一款基于大语言模型的全能 AI 管家系统，旨在打破人机交互壁垒。它支持语音和文字双模态交互，能够控制智能家居设备并管理电脑程序。项目采用 MIT License 开源协议，具备多轮对话、工具调用及模型切换能力。

OmniSteward 界面示意

核心功能

多模态交互：支持语音识别与文本输入，利用上下文理解进行多轮对话。

智能家居控制：对接巴法云平台，通过指令控制灯光、电器等设备。

电脑程序管理：可执行程序的启动、关闭及状态查询，例如'启动 Photoshop'。

在线检索与文件管理：集成 step_web_search 和 Kimi AI 获取信息，支持文件读写、压缩及列表操作。

命令行扩展：允许专业用户通过语音或文字执行复杂命令行任务。

技术架构

系统后端基于 Python 构建，主要依赖以下技术组件：

语音处理：pyaudio 和 sounddevice 负责音频采集与设备管理；Silero VAD 用于语音活动检测。
模型集成：核心使用 Qwen2.5，配合 BGE Reranker 优化搜索排序。
Web 服务：Flask 框架结合 zerorpc 实现前后端通信。
自动化：Selenium 模拟浏览器行为，requests 和 beautifulsoup4 处理 HTTP 请求与 HTML 解析。

安装与部署

环境准备

确保已安装 Python 3.8+ 及 Chrome 浏览器。目前主要在 Windows 环境下测试通过。

步骤说明

克隆仓库

git clone https://github.com/OmniSteward/OmniSteward.git 
cd OmniSteward

安装依赖

pip install -r requirements.txt

配置环境变量

编辑 examples/env.cmd 文件，填入必要的 API Key 和路径：

OPENAI_API_BASE=your_api_base
OPENAI_API_KEY=your_api_key
SILICON_FLOW_API_KEY=your_api_key
BEMFA_UID=your_bemfa_uid
BEMFA_TOPIC=your_bemfa_topic
KIMI_PROFILE_PATH=path_to_chrome_profile
LOCATION=your_location
LLM_MODEL=your_llm_model

API 密钥获取方式可参考项目文档。

启动服务

命令行模式 (CLI)

先启动 VAD 服务：

python -m servers.vad_rpc

OmniSteward：基于 LLM Agent 的智能家居与电脑控制方案

项目简介

核心功能

技术架构

安装与部署

环境准备

步骤说明

更多推荐文章

相关免费在线工具

总结

更多推荐文章

相关免费在线工具

OmniSteward：基于 LLM Agent 的智能家居与电脑控制方案

项目简介

核心功能

技术架构

安装与部署

环境准备

步骤说明

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具