OmniSteward：基于 LLM Agent 的语音文字智能家居与电脑控制系统

OmniSteward 是一款基于大语言模型的智能管家系统，支持语音和文字交互，可控制智能家居设备及管理电脑程序。系统采用 Flask 后端，集成 Qwen2.5 等模型，支持多模态交互、工具调用及自定义扩展。安装需 Python 3.8+ 及 Chrome 浏览器，提供命令行与 Web 两种启动模式，适用于家庭办公及学习场景，致力于实现更智能便捷的人机交互体验。

追风少年发布于 2026/4/6更新于 2026/7/548 浏览

一、前言

在科技日新月异的今天，人工智能正以前所未有的速度改变着我们的生活方式。从智能手机的语音助手到智能家居的自动化控制，AI 技术逐渐渗透到生活的各个角落，为我们带来了便捷与高效。OmniSteward 正是在这样的背景下应运而生，它作为一款基于大语言模型的全能 AI 管家系统，致力于打破人机交互的壁垒，为用户打造一个智能、高效、便捷的生活和工作环境。

二、项目概述

OmniSteward 是一个正在积极开发中的全能管家系统，它借助大语言模型的强大能力，实现了与用户的语音和文字交互，旨在帮助用户轻松控制智能家居设备以及管理电脑程序。该项目遵循 MIT License 开源协议。其具备诸多亮点，如支持多轮对话、可调用工具执行复杂任务、兼容多种 LLM 模型且拓展性强，用户能够方便地自定义和分享工具。

在这里插入图片描述

三、功能特性

多模态交互体验
- OmniSteward 提供了语音和文字两种交互模式，满足用户在不同场景下的需求。语音交互利用先进的语音识别技术，准确理解用户的语音指令；文字交互则为用户提供了精确表达复杂需求的途径。支持多轮对话功能，系统能够依据之前的对话内容和上下文，连续回答用户问题，使交互过程更加自然流畅。
强大的功能集成
- 智能家居控制：与巴法云等平台对接，用户可通过语音或文字指令控制家中的灯光、电器、窗帘等设备。如'打开客厅空调并设置为 26 度''关闭卧室所有灯光'等指令，都能精准执行，让家居生活更加便捷舒适。
- 电脑程序管理：轻松实现电脑程序的启动、关闭以及运行状态查看。用户只需说出'启动 Photoshop''关闭正在运行的音乐播放器''查看当前后台运行程序'等指令，即可快速操作电脑程序，提高工作效率。
- 在线信息检索：借助 step_web_search 工具和 Kimi AI，用户能快速获取各类在线信息。无论是查询历史事件、科学知识，还是获取实时新闻、天气预报，OmniSteward 都能迅速从互联网上搜索并呈现准确结果。
- 文件管理：支持文件检索、读写、压缩文件夹和列出文件夹内容等操作。用户可以说'查找上个月修改的文档''在文档中添加一段文字''压缩工作文件夹''列出下载文件夹中的所有文件'等，方便管理电脑中的文件资源。
- 命令行操作：满足专业用户对命令行操作的需求，用户可通过语音或文字执行复杂的命令行任务，进一步拓展了系统的应用范围。
模型灵活性与拓展性
- 支持多种大语言模型，用户可根据自身喜好和需求切换，以获取最佳的交互效果。同时，系统具有很强的拓展性，用户能够方便地自定义工具，还可以将其分享给其他用户，共同丰富 OmniSteward 的功能生态。

四、技术架构

语音处理技术采用 pyaudio 和 sounddevice 等技术进行语音处理。pyaudio 负责音频的输入输出，能够精确采集用户语音信号；sounddevice 则在音频设备管理方面发挥关键作用，两者协同确保语音交互的高效性和准确性。AI 模型应用集成了 Qwen2.5、BGE Reranker 和 Silero VAD 等先进模型。Qwen2.5 作为核心语言模型，具备强大的语言理解和生成能力；BGE Reranker 用于优化搜索结果排序；Silero VAD 实现精准的语音活动检测，提高语音识别效率。Web 服务架构后端基于 Flask 框架构建 Web 服务，利用 zerorpc 实现高效的远程过程调用，保障前后端之间的稳定通信，确保用户在不同设备上都能流畅使用 OmniSteward。浏览器自动化技术运用 Selenium 实现浏览器自动化操作，能够模拟用户在浏览器中的行为，如自动打开网页、输入搜索关键词、提取信息等，为在线信息检索等功能提供支持。其他辅助技术requests 用于发送 HTTP 请求，与外部 Web 服务交互数据；beautifulsoup4 用于解析 HTML 和 XML 文档，从网页中精准提取所需信息，共同增强了系统的数据处理能力。

OmniSteward：基于 LLM Agent 的语音文字智能家居与电脑控制系统

一、前言

二、项目概述

三、功能特性

四、技术架构

五、安装与使用

1、系统要求

更多推荐文章

相关免费在线工具

2、安装步骤

3、环境变量配置

4、启动方式

4.1 命令行模式（CLI）

4.2 Web 模式

六、应用场景与未来展望

七、结语

更多推荐文章

相关免费在线工具

OmniSteward：基于 LLM Agent 的语音文字智能家居与电脑控制系统

一、前言

二、项目概述

三、功能特性

四、技术架构

五、安装与使用

1、系统要求

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2、安装步骤

3、环境变量配置

4、启动方式

4.1 命令行模式（CLI）

4.2 Web 模式

六、应用场景与未来展望

七、结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具