OmniSteward：基于 LLM Agent 的语音与文本智能管家系统

项目概述

OmniSteward 是一个正在积极开发中的全能管家系统，它借助大语言模型的强大能力，实现了与用户的语音和文字交互，旨在帮助用户轻松控制智能家居设备以及管理电脑程序。该项目遵循 MIT License 开源协议，具备多轮对话、工具调用、兼容多种 LLM 模型等特性，用户能够方便地自定义和分享工具。

OmniSteward 界面

功能特性

多模态交互体验

OmniSteward 提供了语音和文字两种交互模式。语音交互利用先进的语音识别技术，准确理解用户的语音指令；文字交互则为用户提供了精确表达复杂需求的途径。支持多轮对话功能，系统能够依据之前的对话内容和上下文，连续回答用户问题，使交互过程更加自然流畅。

强大的功能集成

智能家居控制：与巴法云等平台对接，用户可通过语音或文字指令控制家中的灯光、电器、窗帘等设备。如'打开客厅空调并设置为 26 度''关闭卧室所有灯光'等指令，都能精准执行。
电脑程序管理：轻松实现电脑程序的启动、关闭以及运行状态查看。用户只需说出'启动 Photoshop''关闭正在运行的音乐播放器'等指令，即可快速操作。
在线信息检索：借助 step_web_search 工具和 Kimi AI，用户能快速获取各类在线信息。无论是查询历史事件、科学知识，还是获取实时新闻、天气预报，OmniSteward 都能迅速从互联网上搜索并呈现准确结果。
文件管理：支持文件检索、读写、压缩文件夹和列出文件夹内容等操作。例如，'查找上个月修改的文档''在文档中添加一段文字''压缩工作文件夹'。
命令行操作：满足专业用户对命令行操作的需求，用户可通过语音或文字执行复杂的命令行任务。

模型灵活性与拓展性

支持多种大语言模型，用户可根据自身喜好和需求切换。同时，系统具有很强的拓展性，用户能够方便地自定义工具，还可以将其分享给其他用户，共同丰富 OmniSteward 的功能生态。

技术架构

语音处理技术：采用 pyaudio 和 sounddevice 等技术进行语音处理。pyaudio 负责音频的输入输出，sounddevice 则在音频设备管理方面发挥关键作用，两者协同确保语音交互的高效性和准确性。

AI 模型应用：集成了 Qwen2.5、BGE Reranker 和 Silero VAD 等先进模型。Qwen2.5 作为核心语言模型，具备强大的语言理解和生成能力；BGE Reranker 用于优化搜索结果排序；Silero VAD 实现精准的语音活动检测。

Web 服务架构：后端基于 Flask 框架构建 Web 服务，利用 zerorpc 实现高效的远程过程调用，保障前后端之间的稳定通信。

浏览器自动化技术：运用 Selenium 实现浏览器自动化操作，模拟用户在浏览器中的行为，为在线信息检索等功能提供支持。

其他辅助技术：requests 用于发送 HTTP 请求；beautifulsoup4 用于解析 HTML 和 XML 文档，增强系统的数据处理能力。

安装与使用

1. 系统要求

确保您的设备已安装 Python 3.8 及以上版本，因为项目的运行依赖于该版本的 Python 环境。需安装 Chrome 浏览器，这是用于实现 Kimi AI 功能的必要组件。目前 OmniSteward 主要在 Windows 操作系统上进行了功能测试，Linux 和 Mac 系统的部分功能兼容性尚未完全确定。

2. 安装步骤

首先，打开命令行终端（如 CMD 或 PowerShell），克隆 OmniSteward 项目仓库到本地：

git  https://github.com/OmniSteward/OmniSteward.git

OmniSteward：基于 LLM Agent 的语音与文本智能管家系统