项目简介
OmniSteward 是一款基于大语言模型的全能 AI 管家系统,旨在打破人机交互壁垒。它支持语音和文字双模态交互,能够控制智能家居设备并管理电脑程序。项目采用 MIT License 开源协议,具备多轮对话、工具调用及模型切换能力。

核心功能
多模态交互:支持语音识别与文本输入,利用上下文理解进行多轮对话。
智能家居控制:对接巴法云平台,通过指令控制灯光、电器等设备。
电脑程序管理:可执行程序的启动、关闭及状态查询,例如'启动 Photoshop'。
在线检索与文件管理:集成 step_web_search 和 Kimi AI 获取信息,支持文件读写、压缩及列表操作。
命令行扩展:允许专业用户通过语音或文字执行复杂命令行任务。
技术架构
系统后端基于 Python 构建,主要依赖以下技术组件:
- 语音处理:pyaudio 和 sounddevice 负责音频采集与设备管理;Silero VAD 用于语音活动检测。
- 模型集成:核心使用 Qwen2.5,配合 BGE Reranker 优化搜索排序。
- Web 服务:Flask 框架结合 zerorpc 实现前后端通信。
- 自动化:Selenium 模拟浏览器行为,requests 和 beautifulsoup4 处理 HTTP 请求与 HTML 解析。
安装与部署
环境准备
确保已安装 Python 3.8+ 及 Chrome 浏览器。目前主要在 Windows 环境下测试通过。
步骤说明
- 克隆仓库
git clone https://github.com/OmniSteward/OmniSteward.git
cd OmniSteward
- 安装依赖
pip install -r requirements.txt
- 配置环境变量
编辑 examples/env.cmd 文件,填入必要的 API Key 和路径:
OPENAI_API_BASE=your_api_base
OPENAI_API_KEY=your_api_key
SILICON_FLOW_API_KEY=your_api_key
BEMFA_UID=your_bemfa_uid
BEMFA_TOPIC=your_bemfa_topic
KIMI_PROFILE_PATH=path_to_chrome_profile
LOCATION=your_location
LLM_MODEL=your_llm_model
API 密钥获取方式可参考项目文档。
- 启动服务
命令行模式 (CLI)
先启动 VAD 服务:
python -m servers.vad_rpc



