一、前言
OmniSteward 是一款基于大语言模型的全能 AI 管家系统,致力于打破人机交互的壁垒。无论是希望提高工作效率的上班族,还是追求高品质生活的家庭用户,它都能成为理想的智能伙伴。
二、项目概述
OmniSteward 是一个正在积极开发中的全能管家系统,借助大语言模型的强大能力,实现了与用户的语音和文字交互,旨在帮助用户轻松控制智能家居设备以及管理电脑程序。该项目遵循 MIT License 开源协议。其具备诸多亮点,如支持多轮对话、可调用工具执行复杂任务、兼容多种 LLM 模型且拓展性强,用户能够方便地自定义和分享工具。
三、功能特性
- 多模态交互体验 OmniSteward 提供了语音和文字两种交互模式。语音交互利用先进的语音识别技术,准确理解用户的语音指令;文字交互则为用户提供了精确表达复杂需求的途径。支持多轮对话功能,系统能够依据之前的对话内容和上下文,连续回答用户问题。
- 强大的功能集成
- 智能家居控制:与巴法云等平台对接,用户可通过语音或文字指令控制家中的灯光、电器、窗帘等设备。
- 电脑程序管理:轻松实现电脑程序的启动、关闭以及运行状态查看。
- 在线信息检索:借助 step_web_search 工具和 Kimi AI,用户能快速获取各类在线信息。
- 文件管理:支持文件检索、读写、压缩文件夹和列出文件夹内容等操作。
- 命令行操作:满足专业用户对命令行操作的需求。
- 模型灵活性与拓展性 支持多种大语言模型,用户可根据自身喜好和需求切换。同时,系统具有很强的拓展性,用户能够方便地自定义工具。
四、技术架构
语音处理技术采用 pyaudio 和 sounddevice 等技术进行语音处理。AI 模型应用集成了 Qwen2.5、BGE Reranker 和 Silero VAD 等先进模型。Web 服务架构后端基于 Flask 框架构建 Web 服务,利用 zerorpc 实现高效的远程过程调用。浏览器自动化技术运用 Selenium 实现浏览器自动化操作。其他辅助技术包括 requests 用于发送 HTTP 请求,beautifulsoup4 用于解析 HTML 和 XML 文档。
五、安装与使用
1、系统要求
确保您的设备已安装 Python 3.8 及以上版本。需安装 Chrome 浏览器,这是用于实现 Kimi AI 功能的必要组件。目前主要在 Windows 操作系统上进行了功能测试。
2、安装步骤
打开命令行终端,输入以下命令克隆 OmniSteward 项目仓库到本地:
git clone https://github.com/OmniSteward/OmniSteward.git
cd OmniSteward
在项目目录中,执行以下命令安装项目所需的依赖项:
pip install -r requirements.txt
3、环境变量配置
打开项目中的 examples/env.cmd 文件,您需要在该文件中配置一系列环境变量,具体如下:
OPENAI_API_BASE=your_api_base
OPENAI_API_KEY=your_api_key
SILICON_FLOW_API_KEY=your_api_key
BEMFA_UID=your_bemfa_uid
BEMFA_TOPIC=your_bemfa_topic
KIMI_PROFILE_PATH=path_to_chrome_profile
LOCATION=your_location
LLM_MODEL=your_llm_model
备注:获取 OPENAI 格式的 API 密钥和 API 基础 URL 参见大语言模型平台文档。
4、启动方式
OmniSteward 支持两种使用方式,即命令行模式(CLI)和 Web 模式。
4.1 命令行模式(CLI)
在启动命令行模式之前,请务必先在 examples/env.cmd 文件中按照上述要求正确配置环境变量。
首先,启动 VAD(语音活动检测)服务,在命令行中输入:


