简介
OmniSteward 是一个基于大语言模型的全能管家系统,支持语音和文字双模交互。它旨在帮助用户轻松控制智能家居设备以及管理电脑程序,通过多轮对话和工具调用能力,实现复杂任务的自动化执行。项目遵循 MIT License 开源协议,兼容多种 LLM 模型,用户可方便地自定义和分享工具。

功能特性
多模态交互体验 系统提供语音和文字两种交互模式。语音交互利用先进的语音识别技术准确理解指令;文字交互则适合精确表达复杂需求。支持多轮对话,能依据上下文连续回答问题,使交互过程自然流畅。
强大的功能集成
- 智能家居控制:对接巴法云等平台,可通过指令控制灯光、电器、窗帘等设备,例如'打开客厅空调并设置为 26 度'。
- 电脑程序管理:支持程序的启动、关闭及状态查看。只需说出'启动 Photoshop'或'查看当前后台运行程序',即可快速操作。
- 在线信息检索:借助 step_web_search 工具和 Kimi AI,快速获取历史事件、科学知识或实时新闻。
- 文件管理:支持文件检索、读写、压缩文件夹和列出内容等操作,方便管理本地资源。
- 命令行操作:满足专业用户对命令行任务的需求,进一步拓展系统应用范围。
模型灵活性与拓展性 支持多种大语言模型切换,用户可根据喜好获取最佳交互效果。系统拓展性强,允许自定义工具并分享给其他用户。
技术架构
语音处理采用 pyaudio 和 sounddevice 技术,确保音频输入输出及设备管理的准确性。AI 模型方面集成了 Qwen2.5、BGE Reranker 和 Silero VAD,其中 Qwen2.5 作为核心语言模型,Silero VAD 用于精准语音活动检测。后端基于 Flask 框架构建 Web 服务,利用 zerorpc 保障前后端通信稳定。浏览器自动化使用 Selenium 模拟用户行为,requests 和 beautifulsoup4 则增强了数据解析与处理能力。
安装与使用
系统要求
请确保设备已安装 Python 3.8 及以上版本。需安装 Chrome 浏览器以支持 Kimi AI 功能。目前项目主要在 Windows 上测试过,Linux 和 Mac 系统的部分兼容性尚未完全确定。
安装步骤
-
克隆仓库 在终端中执行以下命令将项目拉取到本地:
git clone https://github.com/OmniSteward/OmniSteward.git cd OmniSteward -
安装依赖 进入项目目录后,安装所需依赖项:
pip install -r requirements.txt
环境变量配置
启动前必须配置环境变量。打开 examples/env.cmd 文件,填入以下关键信息:
OPENAI_API_BASE=your_api_base # OpenAI 格式 API 基础 URL
OPENAI_API_KEY=your_api_key # OpenAI 格式 API 密钥
SILICON_FLOW_API_KEY=your_api_key # Silicon Flow API 密钥,用于 ASR, ReRank
BEMFA_UID=your_bemfa_uid
BEMFA_TOPIC=your_bemfa_topic
KIMI_PROFILE_PATH=path_to_chrome_profile
LOCATION=your_location
LLM_MODEL=your_llm_model



