随着人工智能(AI)与增强现实(AR)技术的深度融合,开发者常面临硬件闭环导致二次开发难的问题。市面上多数方案局限于自有品牌,未开放音视频推拉流 SDK 接口,创意落地门槛高。PUSHI G1 方案通过构建'硬件 + 软件+API+SDK'全栈开放体系,兼容不同厂家的 AI/AR 眼镜技术方案,重点开放视频推流、音频处理相关 SDK 接口,降低开发成本,提升场景适配灵活性。
一、核心能力解析
1. 开放视频推流 SDK
SDK 开放是个体开发者与中小企业实现创意落地的核心前提。方案支持 RTMP 主流协议与多场景串流技术,兼顾低延迟、高清晰度与带宽适配性。
RTMP 协议配置要点
- 协议格式:
rtmp://live.example.com/app/your-stream-key - 分辨率:默认 1080p@30fps,移动场景可自适应降至 720p@30fps
- 码率:Wi-Fi 6 环境下 4-6Mbps,移动网络下 800-1200kbps
- 编码方式:支持 H.265 与 H.264 双编码
- 延迟控制:Wi-Fi 6 环境下≤350ms,5G SA 独立组网环境下≤220ms
产业级实现建议
- 网络配置:需在防火墙中放行 UDP 1935 端口
- 安全规范:Stream Key 单次有效最长 72 小时,公开视频流需嵌入不可见数字水印
串流技术 针对多设备协同,方案支持三种主流无线串流方案:Miracast(适配 Windows)、Wi-Fi Direct(通用型)、第三方软件串流(兼容 Rokid App 等)。
2. 音频处理核心技术
结合'解放双手、沉浸式体验'需求,方案整合五大核心音频技术:
| 核心技术 | 实现方式 | 核心优势 | 典型适用场景 |
|---|---|---|---|
| 定向发声 | 阵列扬声器 + 声波干涉技术 | 声音定向传输至用户耳朵,无外泄 | 公共场所、办公场景 |
| 环境感知 + 降噪 | 多传感器融合+AI 智能降噪算法 | 精准过滤环境杂音,保留必要环境音 | 工业巡检、户外作业 |
| 头部追踪 + 空间音频 | IMU 惯性测量单元 + 头部运动预测算法 | 虚拟声音跟随场景定位 | AR 交互、远程指导 |
| AI 智能路由 | 语音识别 + 场景语义理解算法 | 自动判断用户需求,调整音频参数 | 智能助手、实时翻译 |
| HRTF 个性化建模 | 3D 声场建模 + 用户听觉特征适配 | 虚拟声音具备真实方向感与距离感 | 专业 AR 应用 |
3. RockIVA RV1106B 芯片原生算力
方案选用的瑞芯微 RockIVA RV1106B 芯片,内置自研第四代 NPU,为眼镜端轻量级 AI 分析提供高效算力支撑。
- NPU 核心算力:INT8 精度 0.5 TOPS,INT4 精度 1.0 TOPS


