OmniSteward:基于 LLM Agent 的语音与电脑全能管家
项目概述
OmniSteward 是一个正在积极开发中的全能管家系统,它借助大语言模型的强大能力,实现了与用户的语音和文字交互,旨在帮助用户轻松控制智能家居设备以及管理电脑程序。该项目遵循 MIT License 开源协议,具备多轮对话、工具调用、兼容多种 LLM 模型且拓展性强等特点。用户能够方便地自定义和分享工具,通过不断的更新与完善,有望成为智能生活领域的重要应用。

功能特性
多模态交互体验
OmniSteward 提供了语音和文字两种交互模式。语音交互利用先进的语音识别技术,准确理解用户的语音指令;文字交互则为用户提供了精确表达复杂需求的途径。支持多轮对话功能,系统能够依据之前的对话内容和上下文,连续回答用户问题,使交互过程更加自然流畅。
强大的功能集成
- 智能家居控制:与巴法云等平台对接,用户可通过语音或文字指令控制家中的灯光、电器、窗帘等设备。例如'打开客厅空调并设置为 26 度'等指令,都能精准执行。
- 电脑程序管理:轻松实现电脑程序的启动、关闭以及运行状态查看。只需说出'启动 Photoshop'或'查看当前后台运行程序',即可快速操作。
- 在线信息检索:借助 step_web_search 工具和 Kimi AI,用户能快速获取各类在线信息,无论是查询历史事件还是获取实时新闻。
- 文件管理:支持文件检索、读写、压缩文件夹和列出文件夹内容等操作,方便管理电脑中的文件资源。
- 命令行操作:满足专业用户对命令行操作的需求,用户可通过语音或文字执行复杂的命令行任务。
模型灵活性与拓展性
支持多种大语言模型,用户可根据自身喜好和需求切换。同时,系统具有很强的拓展性,用户能够方便地自定义工具,还可以将其分享给其他用户,共同丰富 OmniSteward 的功能生态。
技术架构
语音处理技术:采用 pyaudio 和 sounddevice 等技术进行语音处理。pyaudio 负责音频的输入输出,sounddevice 在音频设备管理方面发挥关键作用,两者协同确保语音交互的高效性和准确性。
AI 模型应用:集成了 Qwen2.5、BGE Reranker 和 Silero VAD 等先进模型。Qwen2.5 作为核心语言模型,具备强大的语言理解和生成能力;BGE Reranker 用于优化搜索结果排序;Silero VAD 实现精准的语音活动检测。
Web 服务架构:后端基于 Flask 框架构建 Web 服务,利用 zerorpc 实现高效的远程过程调用,保障前后端之间的稳定通信。
浏览器自动化技术:运用 Selenium 实现浏览器自动化操作,模拟用户在浏览器中的行为,为在线信息检索等功能提供支持。
安装与使用
环境准备
确保您的设备已安装 Python 3.8 及以上版本。需安装 Chrome 浏览器,这是用于实现 Kimi AI 功能的必要组件。目前 OmniSteward 主要在 Windows 操作系统上进行了功能测试,Linux 和 Mac 系统的部分功能兼容性尚未完全确定。
部署步骤
首先,克隆项目仓库到本地。进入终端后执行以下命令:
git clone https://github.com/OmniSteward/OmniSteward.git
cd OmniSteward
接着安装依赖项。在项目目录中执行:
pip install -r requirements.txt



