OmniSteward：基于大语言模型的智能语音管家系统

简介

OmniSteward 是一个基于大语言模型的全能管家系统，支持语音和文字双模交互。它旨在帮助用户轻松控制智能家居设备以及管理电脑程序，通过多轮对话和工具调用能力，实现复杂任务的自动化执行。项目遵循 MIT License 开源协议，兼容多种 LLM 模型，用户可方便地自定义和分享工具。

OmniSteward 界面

功能特性

多模态交互体验 系统提供语音和文字两种交互模式。语音交互利用先进的语音识别技术准确理解指令；文字交互则适合精确表达复杂需求。支持多轮对话，能依据上下文连续回答问题，使交互过程自然流畅。

强大的功能集成

智能家居控制：对接巴法云等平台，可通过指令控制灯光、电器、窗帘等设备，例如'打开客厅空调并设置为 26 度'。
电脑程序管理：支持程序的启动、关闭及状态查看。只需说出'启动 Photoshop'或'查看当前后台运行程序'，即可快速操作。
在线信息检索：借助 step_web_search 工具和 Kimi AI，快速获取历史事件、科学知识或实时新闻。
文件管理：支持文件检索、读写、压缩文件夹和列出内容等操作，方便管理本地资源。
命令行操作：满足专业用户对命令行任务的需求，进一步拓展系统应用范围。

模型灵活性与拓展性 支持多种大语言模型切换，用户可根据喜好获取最佳交互效果。系统拓展性强，允许自定义工具并分享给其他用户。

技术架构

语音处理采用 pyaudio 和 sounddevice 技术，确保音频输入输出及设备管理的准确性。AI 模型方面集成了 Qwen2.5、BGE Reranker 和 Silero VAD，其中 Qwen2.5 作为核心语言模型，Silero VAD 用于精准语音活动检测。后端基于 Flask 框架构建 Web 服务，利用 zerorpc 保障前后端通信稳定。浏览器自动化使用 Selenium 模拟用户行为，requests 和 beautifulsoup4 则增强了数据解析与处理能力。

安装与使用

系统要求

请确保设备已安装 Python 3.8 及以上版本。需安装 Chrome 浏览器以支持 Kimi AI 功能。目前项目主要在 Windows 上测试过，Linux 和 Mac 系统的部分兼容性尚未完全确定。

安装步骤

克隆仓库 在终端中执行以下命令将项目拉取到本地：

git clone https://github.com/OmniSteward/OmniSteward.git 
cd OmniSteward

安装依赖 进入项目目录后，安装所需依赖项：
```
pip install -r requirements.txt 
```

环境变量配置

启动前必须配置环境变量。打开 examples/env.cmd 文件，填入以下关键信息：

OPENAI_API_BASE=your_api_base # OpenAI 格式 API 基础 URL
OPENAI_API_KEY=your_api_key # OpenAI 格式 API 密钥
SILICON_FLOW_API_KEY=your_api_key # Silicon Flow API 密钥，用于 ASR, ReRank
BEMFA_UID=your_bemfa_uid 
BEMFA_TOPIC=your_bemfa_topic 
KIMI_PROFILE_PATH=path_to_chrome_profile 
LOCATION=your_location 
LLM_MODEL=your_llm_model

OmniSteward：基于大语言模型的智能语音管家系统

简介

功能特性

技术架构

安装与使用

系统要求

安装步骤

环境变量配置

更多推荐文章

相关免费在线工具

启动方式

命令行模式（CLI）

Web 模式

应用场景

结语

更多推荐文章

相关免费在线工具

OmniSteward：基于大语言模型的智能语音管家系统

简介

功能特性

技术架构

安装与使用

系统要求

安装步骤

环境变量配置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

启动方式

命令行模式（CLI）

Web 模式

应用场景

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具