项目概述
OmniSteward 是一个全能管家系统,借助大语言模型的强大能力,实现了与用户的语音和文字交互,旨在帮助用户轻松控制智能家居设备以及管理电脑程序。其具备多轮对话、可调用工具执行复杂任务、兼容多种 LLM 模型且拓展性强等特点。

功能特性
- 多模态交互体验
- 提供语音和文字两种交互模式。支持多轮对话,系统能够依据上下文连续回答用户问题。
- 强大的功能集成
- 智能家居控制:对接巴法云平台,可通过指令控制灯光、电器等设备。
- 电脑程序管理:实现程序的启动、关闭及状态查看。
- 在线信息检索:借助 step_web_search 工具和 Kimi AI 获取在线信息。
- 文件管理:支持文件检索、读写、压缩等操作。
- 命令行操作:支持通过语音或文字执行复杂的命令行任务。
- 模型灵活性与拓展性
- 支持多种大语言模型切换,用户可自定义工具并分享。
技术架构
语音处理技术采用 pyaudio 和 sounddevice 等技术进行语音处理。AI 模型应用集成了 Qwen2.5、BGE Reranker 和 Silero VAD 等先进模型。Web 服务架构后端基于 Flask 框架构建 Web 服务,利用 zerorpc 实现高效的远程过程调用。浏览器自动化技术运用 Selenium 实现浏览器自动化操作。其他辅助技术requests 用于发送 HTTP 请求,beautifulsoup4 用于解析 HTML 和 XML 文档。
安装与使用
1、系统要求
确保您的设备已安装 Python 3.8 及以上版本。需安装 Chrome 浏览器。目前主要在 Windows 操作系统上进行了功能测试。
2、安装步骤
- 克隆仓库:
git clone https://github.com/OmniSteward/OmniSteward.git
cd OmniSteward
- 安装依赖:
pip install -r requirements.txt
3、环境变量配置
打开项目中的 examples/env.cmd 文件,配置一系列环境变量,具体如下:
OPENAI_API_BASE=your_api_base
OPENAI_API_KEY=your_api_key
SILICON_FLOW_API_KEY=your_api_key
BEMFA_UID=your_bemfa_uid
=your_bemfa_topic
=path_to_chrome_profile
=your_location
=your_llm_model



