在人工智能(AI)与增强现实(AR)技术深度融合的产业浪潮中,深圳企业推出 AI+AR 眼镜应用开放平台。该平台打破行业壁垒,兼容不同厂家的 AI/AR 眼镜技术方案,解决市场核心痛点——多数方案局限于自有品牌闭环,未开放音视频推拉流 SDK 接口,导致开发者难以基于现有硬件二次开发。
作为平台核心支撑,PUSHI G1 AI 眼镜开源技术方案构建'硬件 + 软件+API+SDK'全栈开放体系,覆盖创业团队、高校科研小组等各类开发者群体,提供低门槛、高自由度的二次开发环境。方案深度联动腾讯云、阿里云、高德地图等主流平台 API,形成'硬件适配 - 算法调用 - 场景落地'全链条支撑。

一、PUSHI G1 AI 眼镜开源技术方案核心能力解析
PUSHI G1 AI+AR 眼镜采用瑞芯微专为机器视觉与边缘 AI 应用量身打造的 RockIVA RV1106B 芯片,依托芯片原生 AI 算力与平台开源特性,形成'开放接口 + 核心技术 + 算力支撑'三大核心优势。
(一)核心优势一:开放视频推流 SDK,支持多场景二次开发与多模大模型对接
SDK 开放是个体开发者与中小企业实现创意落地的核心前提。PUSHI G1 方案重点开放视频推流、音频处理相关 SDK 接口,兼容主流传输协议与多模大模型 API(含阿里通义千问多模态 API),降低开发成本。
1. 视频推流核心技术与协议规范
视频推流是 AI+AR 眼镜实现'第一视角采集 - 云端分析-AR 反馈'的核心链路,方案支持 RTMP 主流协议与多场景串流技术。
1.1 RTMP 协议(主流首选方案)
- 协议格式:rtmp://live.example.com/app/your-stream-key
- 关键配置:
- 分辨率:默认 1080p@30fps,移动场景可自适应降至 720p@30fps
- 码率:Wi-Fi 6 环境下 4-6Mbps,移动网络下 800-1200kbps
- 编码方式:支持 H.265 与 H.264 双编码
- 延迟控制:Wi-Fi 6 环境下≤350ms,5G SA 独立组网环境下≤220ms

产业级实现要点:
- 网络配置:需在防火墙中放行 UDP 1935 端口
- 安全规范:Stream Key 单次有效最长 72 小时;遵循行业新规,公开视频流需嵌入不可见数字水印
1.2 串流技术(AI 眼镜与电脑/手机多端协同)
- Miracast 串流:适配 Windows 系统
- Wi-Fi Direct 串流:通用型方案,兼容多系统
- 第三方软件串流:兼容 Rokid App 等主流 AR 辅助软件
2. 音频处理核心技术
结合 AI+AR 眼镜'解放双手、沉浸式体验'的核心需求,方案整合五大核心音频技术。
| 核心技术 | 实现方式 | 核心优势 | 典型适用场景 |
|---|---|---|---|
| 定向发声 | 阵列扬声器 + 声波干涉技术 | 声音定向传输至用户耳朵,无外泄 | 公共场所、办公场景 |
| 环境感知 + 降噪 | 多传感器融合+AI 智能降噪算法 | 精准过滤环境杂音,保留必要环境音 | 工业巡检、户外作业 |
| 头部追踪 + 空间音频 | IMU 惯性测量单元 + 头部运动预测算法 | 虚拟声音跟随场景定位 | AR 交互、远程指导 |
| AI 智能路由 | 语音识别 + 场景语义理解算法 | 自动判断用户需求,智能调整音频参数 | 智能助手、实时翻译 |
| HRTF 个性化建模 | 3D 声场建模 + 用户听觉特征适配 | 虚拟声音具备真实方向感与距离感 | 专业 AR 应用、沉浸式内容体验 |

(二)核心优势二:RockIVA RV1106B 芯片原生算力,筑牢边缘 AI 分析基础
RV1106B 芯片内置自研第四代 NPU,为眼镜端轻量级 AI 分析提供高效算力支撑。
1. NPU 核心算力解析
- INT8 精度:0.5 TOPS,满足人脸抓拍、简单目标检测等基础 AI 场景需求
- INT4 精度:1.0 TOPS,适配复杂场景下的多目标识别、行为分析
- 核心技术优势:支持 INT4/INT8/INT16 混合量化,相比同级别芯片功耗降低 25% 以上
2. 芯片核心参数全景汇总
| 技术模块 | 具体参数与特性 |
|---|---|
| CPU & MCU | 单核 ARM Cortex-A7 CPU,集成 Neon 和 FPU,搭配高性能 RISC-V MCU |
| NPU | 第四代自研 NPU,INT8 算力 0.5 TOPS,INT4 算力 1.0 TOPS |
| ISP | 自研第三代 ISP 3.2,最高支持 500 万像素传感器输入 |
| 视频编解码 | 支持 H.264/H.265 双编码,最大支持 5MP@30fps |
| 音频处理 | 集成智能音频编解码器,支持回声消除、噪声抑制 |
| 系统与功耗 | 支持 250ms 快速启动并加载 AI 模型,典型低功耗场景整机功耗可低至 40mW |
| 集成度与封装 | 高集成度设计,提供内置 DDR 的 QFN 封装和无内置 DDR 的 BGA 封装 |

(三)核心优势三:内置智能视频分析软件与 SDK,降低 AI 开发门槛
RockIVA 芯片自带全套智能视频分析软件与 SDK,无需开发者额外开发基础 AI 算法。
- 核心算法覆盖:目标检测跟踪、周界防护、人车非宠物分类检测、火焰检测、人脸抓拍分析、车辆车牌检测识别、客流统计、骨骼关键点检测等。
- 重点功能详解:
- 人脸抓拍分析:响应时间≤100ms,支持人脸比对、身份识别
- 人脸属性分析:精准分析年龄、性别、表情、佩戴状态等属性
综上,PUSHI G1 AI 眼镜开源方案的'SDK 开放 + 原生算力 + 内置算法'三大核心优势,结合腾讯云、阿里云、高德地图等主流平台的 API 能力,以及通义、豆包多模态大模型对接支持,为各类开发者提供了'硬件适配 - 算法调用 - 场景落地'的全链条支撑。
二、PUSHI G1 AI 眼镜开源方案应用案例:三大方向,赋能全场景创新(18 个案例)
本次打造的 18 个应用场景均基于 PUSHI G1 AI 眼镜开源技术方案,结合主流云端 API 能力,经过实际场景试点验证。
方向一:重塑专业工作流——降本增效,提升专业场景核心竞争力
聚焦工业、医疗、培训等专业领域。
1. 第一视角工业 AR 远程专家指导(腾讯云 + 阿里云 IoT)
- 技术实现:基于 PUSHI G1 SDK 实现第一视角画面实时推流,将现场设备画面传输至腾讯云 AI 视觉分析系统,由 AI 自动识别设备故障点并叠加 AR 标注;同时对接阿里云 IoT 平台,获取设备实时运行数据。
- API 对接:腾讯云 AI 视觉分析 API、阿里云 IoT 平台 API、腾讯会议 API
- 创新价值:故障诊断效率提升 300%,减少 80% 的现场专家派遣需求。
- 落地案例:国家电网已正式部署,应用于变电站设备远程维修指导。
2. 智能巡检与安防(阿里云视觉智能 + 腾讯云 TI-OCR)
- 技术实现:巡检人员佩戴 PUSHI G1 AI 眼镜开展巡检工作,眼镜自动采集设备仪表、阀门等关键点位画面,通过 PUSHI G1 SDK 推流至阿里云视觉智能 API 或腾讯云 TI-OCR 接口,实现仪表读数自动识别。
- API 对接:阿里云视觉智能 API、腾讯云 TI-OCR API
- 创新价值:巡检效率提升 80%,漏检率降低至 0.3% 以下。
- 落地案例:已在深圳地铁、国家电网巡检场景试点应用。
3. AR 智能医疗诊断(阿里健康 + 腾讯医疗)
- 技术实现:分为基层诊断与术中辅助两大场景。基层医生佩戴眼镜采集患者症状画面,通过 PUSHI G1 SDK 推流至阿里健康 API,由云端 AI 分析病征、匹配诊疗方案。
- API 对接:阿里健康 API、腾讯医疗 AI API、腾讯觅影医疗影像 API
- 创新价值:基层医院诊断准确率提升 45%,术中辅助场景可降低手术并发症发生率 30%。
- 落地案例:深圳某社区医院试点基层诊断场景,诊断时间从平均 45 分钟缩短至 12 分钟。
4. 沉浸式智能工业培训(阿里通义千问+PUSHI SDK)
- 技术实现:新手员工佩戴 PUSHI G1 AI 眼镜,眼镜通过 AR 技术在新手眼前逐步浮现设备操作指引;关键操作步骤通过 PUSHI G1 SDK 实时推流至云端多模态大模型,AI 实时评判操作动作规范性。
- API 对接:阿里通义千问多模态 API、PUSHI G1 SDK、企业培训管理平台 API
- 创新价值:培训效率提升 70%,新手上手周期缩短 50%。
- 落地案例:华为工业基地试点应用,针对设备操作培训,新手考核通过率从 65% 提升至 92%。
方向二:创造个人智能体验——便捷高效,打造个性化智能生活
聚焦文旅、教育、交通、购物等个人生活场景。
5. 文化遗产 AR 活化导览(阿里通义千问 + 腾讯文旅)
- 技术实现:游客佩戴 PUSHI G1 AI 眼镜,眼镜通过图像识别功能识别文物、古建筑,调用阿里通义千问多模态大模型生成文物深度解读,并通过 AR 技术叠加在文物、古建筑上。
- API 对接:阿里通义千问多模态 API、腾讯文旅 API、文物识别 API
- 创新价值:游客停留时间增加 65%,对文化遗产的理解深度提升 2 倍。
- 应用实例:故宫博物院已正式部署,覆盖核心展区 200 余件文物。
6. 智能教育 AR 实验平台(腾讯教育+PUSHI SDK)
- 技术实现:学生佩戴 PUSHI G1 AI 眼镜开展虚拟实验,眼镜通过 AR 技术生成虚拟实验器材、实验场景;PUSHI G1 SDK 将学生操作画面实时推流至腾讯教育 API,AI 实时分析操作步骤。
- API 对接:腾讯教育 API、腾讯云 AI、实验管理平台 API
- 创新价值:彻底规避传统实验的安全风险,实验成本减少 70%。
- 教育成果:深圳中学试点应用,覆盖物理、化学两大科目 15 个实验项目。
7. AR 智能交通导航(高德地图 + 腾讯 AI)
- 技术实现:用户佩戴 PUSHI G1 AI 眼镜,眼镜通过 AR 技术将导航路线、转向提示直接叠加在现实路面上;结合高德地图实时交通 API,获取实时路况。
- API 对接:高德地图实时交通 API、腾讯 AI 交通分析 API、导航 API
- 创新价值:驾驶分心率降低 68%,通勤时间平均缩短 15 分钟。
- 行业影响:已与深圳交警合作试点,应用于城市主干道、高速路口。
8. AR 智能语言翻译(腾讯翻译+PUSHI SDK)
- 技术实现:用户佩戴 PUSHI G1 AI 眼镜,眼镜通过内置麦克风、摄像头,实时识别语音和文字;通过 PUSHI G1 SDK 将语音、文字数据推流至腾讯翻译 API,实现实时翻译。
- API 对接:腾讯翻译 API、腾讯语音识别 API、文字识别 API
- 创新价值:跨语言交流效率提升 5 倍,支持 100+ 种语言实时翻译。
- 市场反馈:已在深圳机场、深圳口岸部署,累计服务国际旅客超 50 万人次。

9. AR 智能购物体验(淘宝/天猫 API+ 阿里云视觉)
- 技术实现:用户佩戴 PUSHI G1 AI 眼镜,在实体店或线上购物时,眼镜通过图像识别功能识别商品;调用淘宝/天猫 API 获取商品详细信息,同时对接阿里云视觉识别 API,通过 AR 技术实现虚拟试穿、虚拟试用。
- API 对接:淘宝/天猫 API、阿里云视觉识别 API、语音交互 API
- 创新价值:商品退货率降低 40%,用户购物决策时间缩短 65%。
- 商业价值:已与天猫合作试点,在服装、化妆品类目推出 AR 试穿试用功能。
10. 智能农业 AR 指导(阿里农业大模型+PUSHI SDK)
- 技术实现:农户佩戴 PUSHI G1 AI 眼镜,在田间作业时,眼镜通过图像识别功能识别农作物及病虫害;调用阿里云农业大模型,获取针对性的病虫害防治方案、施肥浇水指导。
- API 对接:阿里云农业大模型、阿里云视觉 AI、农业物联网平台 API
- 创新价值:农作物病虫害识别准确率达 92%,农药使用量减少 35%。
- 农业应用:已在广东荔枝种植基地、浙江水稻种植基地应用。
11. 个人健康与运动智能教练(腾讯云人体分析 + 营养数据库 API)
- 技术实现:用户健身时,佩戴 PUSHI G1 AI 眼镜,眼镜将用户运动姿态实时推流至腾讯云人体分析 API,AI 精准识别运动动作,判断动作规范性。
- API 对接:腾讯云人体分析 API、营养数据库 API、运动管理平台 API
- 创新价值:运动损伤发生率降低 80%,用户健身效果提升 45%。
- 落地案例:已与国内知名健身平台合作,推出 AR 智能健身课程。
12. 实时创作与内容增强(多模态大模型+PUSHI SDK)
- 技术实现:视频创作者、主播佩戴 PUSHI G1 AI 眼镜,眼镜通过 AR 技术在创作者眼前实时显示台词提词、互动观众评论;直播过程中,创作者可通过语音调用多模态大模型,实时生成 AR 特效。
- API 对接:多模态大模型 API、直播平台 API、PUSHI G1 SDK
- 创新价值:创作者工作效率提升 60%,直播互动性增强。
- 应用案例:已被多个短视频、直播博主采用。
13. AR 远程会议与协作(腾讯会议+PUSHI SDK)
- 技术实现:企业员工佩戴 PUSHI G1 AI 眼镜,通过 PUSHI G1 SDK 接入腾讯会议,实现第一视角画面实时共享;会议过程中,可通过 AR 技术将文档、3D 模型、标注内容叠加在现实场景中。
- API 对接:腾讯会议 API、腾讯云 AI、文档协作 API
- 创新价值:会议效率提升 50%,减少 60% 的线下会议次数。
- 企业应用:华为已正式部署,用于全球产品研发团队协作。
14. AR 智能安防巡检(阿里云安防+PUSHI SDK)
- 技术实现:安防人员佩戴 PUSHI G1 AI 眼镜,在巡检过程中,眼镜扫描安防点位,通过 PUSHI G1 SDK 将画面实时推流至阿里云安防 API;AI 自动识别异常情况。
- API 对接:阿里云安防 API、阿里云 AI、安防指挥平台 API
- 创新价值:安防响应时间从平均 15 分钟缩短至 90 秒,异常处置效率提升 90%。
- 行业标杆:深圳地铁已部署,覆盖 10 条线路、50 余个站点。
方向三:构建空间智能服务——联动场景,打造智慧空间新生态
聚焦智慧城市、零售营销等空间场景。
15. 智慧城市 AR 运维(阿里云 IoT+ 市政管理平台)
- 技术实现:市政工人佩戴 PUSHI G1 AI 眼镜开展市政运维工作,眼镜通过图像识别功能自动识别人行道井盖、路灯、公交站牌等市政资产,调用市政管理平台 API。
- API 对接:阿里云 IoT 平台、市政管理平台 API、维修调度 API
- 创新价值:市政运维效率提升 75%,故障处置周期缩短 60%。
- 落地案例:深圳南山区已试点应用,覆盖辖区内 5000 余个市政资产。
16. 互动式 AR 营销与零售(阿里云数字人 + 电商平台 API)
- 技术实现:在线下零售店、商场,顾客佩戴 PUSHI G1 AI 眼镜,看向商品海报、货架时,眼镜通过图像识别触发 AR 交互;店铺通过阿里云数字人技术,在眼镜中生成虚拟导购员。
- API 对接:阿里云数字人 API、电商平台 API、图像识别 API
- 创新价值:顾客到店转化率提升 35%,客单价提升 20%。
- 落地案例:已在深圳某大型商场试点,覆盖服装、家电、美妆等多个类目。
17. 智能生活助手与导航(生活服务 API+ 地图 API)
- 技术实现:用户在复杂交通枢纽时,PUSHI G1 AI 眼镜通过 AR 技术将导航箭头直接叠加在现实路径上;逛超市时,眼镜自动识别商品,调用生活服务 API,显示商品比价信息。
- API 对接:地图 API、生活服务 API、商品信息 API
- 创新价值:用户出行、购物效率提升 60%,生活便捷度显著提升。
- 落地案例:深圳宝安国际机场已部署,覆盖机场航站楼、停车场等区域。
18. 智慧校园 AR 智能管理(腾讯教育 + 校园管理平台 API)
- 技术实现:教职工佩戴 PUSHI G1 AI 眼镜开展校园巡检,通过眼镜图像识别功能自动识别校园设施;学生佩戴眼镜可实现 AR 校园导航,同时对接腾讯教育 API,实时查看课程表。
- API 对接:腾讯教育 API、校园管理平台 API、校园门禁 API、阿里云视觉 AI
- 创新价值:校园运维效率提升 65%,设施故障处置时间缩短 50%。
- 落地案例:深圳某公办中学试点应用,覆盖校园 80 余个设施点位、2000 余名师生。
三、核心实现逻辑与技术整合
上述 18 个创新应用场景的实现,核心依托于 PUSHI G1 AI 眼镜的边缘端能力与云端 AI 大脑的深度协同,形成'感知 - 传输 - 分析 - 渲染'的全链路技术闭环。
| 核心环节 | 眼镜端(边缘侧)核心职责 | 云端/API 核心职责 |
|---|---|---|
| 感知与采集 | 负责第一视角视频、音频实时采集;实现空间定位、传感器数据采集 | 接收边缘端传输的数据 |
| 传输与同步 | 通过 PUSHI G1 SDK,采用 WebRTC/RTMP 等主流协议,实现低延迟推流 | 接收边缘端传输的流媒体数据;实现多端状态同步 |
| AI 分析与生成 | 依托 RockIVA RV1106B 芯片的 NPU 算力,完成基础环境理解、轻量级 AI 模型运算 | 调用多模态大模型完成核心 AI 分析任务;生成 AR 渲染指令 |
| AR 渲染与交互 | 接收云端推送的 AR 渲染指令,完成最终的 AR 叠加渲染;处理用户交互指令 | 推送渲染指令 |
技术整合核心亮点:采用'边缘计算 + 云端协同'的架构,既发挥了 PUSHI G1 AI 眼镜边缘端的低延迟、高适配优势,又依托云端 API 的丰富能力,实现复杂场景的 AI 分析与服务对接。
四、PUSHI G1 AI 眼镜开源技术方案详细技术参数
以下为 PUSHI G1 AI 眼镜的详细技术参数,均经过产业落地验证。

| 产品参数类别 | 具体参数与特性 |
|---|---|
| 蓝牙 SOC | 物奇 WQ7036A;支持 BT/BLE5.4;内置 HiFi5 DSP、NPU 和 Hybrid ANC |
| 主控制芯片 | 瑞芯微 RockIVA RV1106B;专为边缘 AI 与机器视觉设计 |
| NPU 算力 | 自研第四代 NPU;INT8 精度 0.5 TOPS,INT4 精度 1.0 TOPS |
| 图像采集 | 内置 500 万像素高清摄像头;支持多帧 HDR/WDR、3D 降噪 |
| 视频编解码 | 支持 H.264/H.265 双编码;最大支持 5MP@30fps |
| 显示模块 | AR光学 waveguide 显示;视场角(FOV)45°,分辨率 1080p |
| 音频模块 | 阵列扬声器 + 定向发声技术;内置智能音频编解码器 |
| 网络连接 | 支持 Wi-Fi 6(802.11ax)、4G/5G 双模;兼容 RTMP、WebRTC 推流协议 |
| 传感器配置 | IMU 惯性测量单元、光线传感器、距离传感器 |
| 电池与续航 | 内置 1200mAh 高容量锂电池;日常使用续航可达 7 小时 |
| 接口规格 | Type-C 3.0 接口(支持数据传输、充电、音视频输出);预留 GPIO 扩展接口 |
| 存储配置 | 内置 16GB eMMC 闪存(可扩展至 64GB);搭配芯片内置 128-256MB DDR3L |
| 操作系统 | 支持 Linux、Android Things 双系统 |
| 物理规格 | 重量≤65g(不含镜腿);防水等级 IP54 |
| 开发支持 | 开放视频推流、音频处理 SDK;兼容阿里通义、豆包多模态大模型 API |


