跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

基于 Rokid 灵珠平台打造 AI Glasses 作业助手

介绍如何利用 Rokid 灵珠 AI 平台构建一款 AI Glasses 作业助手应用。通过智能体与工作流结合,实现视觉识题、知识点检索及引导式讲解功能。方案涵盖知识库创建、Agent 人设配置、工作流编排及眼镜端测试流程,旨在缓解家庭作业辅导压力,展示穿戴设备上的 AI 落地价值。

Elasticer发布于 2026/4/6更新于 2026/5/1626 浏览
基于 Rokid 灵珠平台打造 AI Glasses 作业助手

基于 Rokid 灵珠平台打造 AI Glasses 作业助手

一、引言:为什么我们需要一个 AI Glasses 作业助手?

春节假期本是阖家团圆的日子,但对于很多家长来说,'辅导寒假作业'往往是打破祥和气氛的导火索。面对孩子'这题怎么做'的灵魂拷问,家长们常常面临两个痛点:

  1. 知识遗忘:当年的学霸面对现在的奥数题也可能束手无策。
  2. 情绪失控:反复讲解听不懂,容易血压飙升。

传统的搜题 App 需要掏出手机、拍照、上传,不仅打断孩子思路,还容易让孩子分心玩手机。而 Rokid Glasses 的第一视角采集与实时语音交互特性,天然适合作为'随身家教'——看着题就能问,边看边讲解。

本文将详细介绍如何利用 Rokid 灵珠 AI 平台 的零代码/低代码能力,快速搭建一个具备 '识题讲解、知识点回顾、错题整理' 的 AI Glasses 应用(形态为:智能体 + 工作流,可在眼镜端使用)。


二、方案设计与架构

2.1 核心功能定义

我们希望打造一个名为 '作业救星 (Homework Savior)' 的智能体,它具备以下能力:

  • 👁️ 视觉识别:通过眼镜摄像头捕捉作业题目(支持手写体/印刷体)。
  • 🧠 深度推理:不直接给出答案,而是分析题目考察的知识点,提供分步解题思路。
  • 📚 知识挂载:针对特定学科(如初中几何、物理公式),挂载专属知识库以提高准确率。
  • 🗣️ 情感交互:以'温柔耐心的学霸哥哥/姐姐'口吻进行语音讲解,安抚孩子情绪。
2.2 端到端架构(AI Glasses)
flowchart TD
    A[用户:语音 + 图片] --> B{灵珠 AI 平台}
    B --> C[工作流:视觉理解]
    C --> D[OCR/题干提取]
    D --> E[知识库检索]
    E --> F[LLM 推理生成]
    F --> G[输出:考点 + 步骤 + 提示]
    G --> H[眼镜端展示/播报]
2.3 业务流程架构

利用流程图描述的业务逻辑如下:

  1. 阶段一:视觉理解与意图识别
    • 语音指令:'这道几何题怎么做?' + 拍摄题目图片
    • 触发主工作流 (Input: Query + Image)
    • 调用视觉模型 (OCR + 题目提取)
  2. 阶段二:知识检索与推理
    • 检索相关公式/定理 (如'勾股定理'),返回 Top3 相关知识片段
    • Prompt: 结合题目 + 知识点,生成分步讲解思路
    • 返回结构化的讲解文本 (非直接答案)
  3. 输出
    • 输出最终讲解内容
    • 语音播放讲解 + 屏幕显示关键公式

三、开发实战:手把手搭建'作业救星'

3.1 准备工作
  1. 准备 3 份测试题目(建议各 1 份:几何、方程、应用题),用于验证不同题型表现。
  2. 准备一份'初中数学公式/定理'材料(PDF/Markdown/网页内容均可),用于构建知识库。
  3. 确保眼镜与手机已完成基础配对/联网,并能在眼镜端打开灵珠平台相关入口。
3.2 步骤一:创建知识库(资源准备)
  1. 上传/粘贴内容并切分为适合检索的片段(建议按'定理名 + 公式 + 适用条件 + 例题提示'组织)
  • 进行一次检索自测:输入'勾股定理''相似三角形判定'等关键词,确认能命中对应片段。
  • 进入左侧导航的 '资源' -> '知识库',创建知识库:初中数学公式与定理。

    3.3 步骤二:创建智能体(Agent)
    1. 基本信息配置:
      • 名称:作业救星
      • 简介:你的寒假作业辅导老师,只讲思路不给直接答案

    人设与回复逻辑(Prompt):在对应区域输入提示词:

    # Role 你是一位耐心、幽默且知识渊博的清华学霸家教。你的目标是辅导初中生完成寒假作业。
    # Constraints
    1. 🚫 **严禁直接给出最终答案**(如'选 A'或'等于 5')。
    2. ✅ 必须采用**引导式教学**:先分析题目考点,再提供第一步思路,引导学生思考下一步。
    3. 🗣️ 语言风格:轻松活泼,多用鼓励性话语(如'这点很棒!''别急,我们慢慢来')。
    4. 📐 如果涉及数学公式,请用 LaTeX 格式输出,方便眼镜端渲染(或转为自然语言描述)。
    # Skills
    1. 擅长识别手写体题目。
    2. 能将复杂的物理/数学概念用生活中的例子类比。
    

    在灵珠平台首页点击 '创建智能体'。

    3.4 步骤三:搭建核心工作流(Workflow)

    为了处理复杂的'识图 + 检索 + 推理'逻辑,我们需要使用工作流而非简单的单轮对话。

    进入 '开发工作流' -> '创建工作流'。

    3.4.1 变量与节点命名

    灵珠平台的工作流画布里,开始节点默认会提供两类输入:

    • USER_INPUT:文本输入(用户的提问/指令)
    • USER_INPUT_IMAGE:图片输入(用户当前视角拍摄的题目图)

    结束节点通常输出:

    • output:工作流最终输出(返回给智能体/眼镜端展示与播报)

    为了让提示词里引用变量更直观,建议把两个关键节点命名为:

    1. 开始节点(默认输入):
      • USER_INPUT(用户问题)
      • USER_INPUT_IMAGE(题目图片)
    2. 节点编排(示例):
      • 题干提取(大模型/多模态):
        • 输入:USER_INPUT_IMAGE
        • Prompt:请提取图片中的题目文字;若含几何图,请用要点描述图形关系与已知条件。
      • 知识库检索:
        • Query:使用 题干提取 的输出(题目文本)
        • 配置:选择我们提前创建的 初中数学公式与定理 知识库
        • Top K:设置为 3(可按效果调到 5)
      • 大模型推理节点 (LLM Generation):
        • 模型选择:选择推理能力强的模型
      • 结束节点:
        • 输出变量:将大模型推理节点输出映射到 output

    System Prompt:

    你收到了一个学生的提问和一道题目。
    题目内容:{{题干提取.output}}
    参考知识点:{{知识库检索.output}}
    用户问题:{{USER_INPUT}}
    请结合参考知识点,为学生讲解这道题,采用引导式教学,不要给出最终答案或最终数值结果。
    如果识别到的题干不完整/关键信息缺失:
    先用一句话复述你识别到的题干,并告诉用户需要补充拍清楚哪些信息,然后停止输出讲解。
    否则请严格按以下结构输出(每段控制简短,方便眼镜端显示与语音播报):
    【考点】一句话概括
    【第一步】先做什么(给出一个可执行的小步骤)
    【下一步提示】给一个追问或提示,推动学生继续
    【自检问题】给 1 个让学生自检的简单问题
    
    3.4.2 输出格式(便于 AI Glasses 展示)

    为了保证'眼镜端一眼能看懂、语音也不啰嗦',建议把工作流最终输出固定为四段结构

    【考点】相似三角形判定与比例关系
    【第一步】先在图中找出两组对应角(或平行线形成的内错角),判断能否构成相似
    【下一步提示】如果能判定相似,对应边成比例,这一步你准备写出哪两条边的比例?
    【自检问题】你能说出'相似'的两个三角形分别是哪两个吗?
    
    3.4.3 验收用例

    下面这张表是我自己用于'发布前验收'的最小集合。

    用例题目类型画面条件用户问题示例期望输出(检查点)
    TC-01几何(有图)光线正常这题第一步怎么看?能说出考点;不报答案;给出可执行第一步
    TC-02方程(印刷体)光线正常帮我分析思路结构化四段;第一步是列式/移项等
    TC-03应用题(文字多)题干完整先帮我提取已知条件能复述条件;提示设未知数;不直接算结果
    TC-04手写体字迹清晰我卡在第二步了能追问缺失信息;或给下一步提示推动思考
    TC-05模糊/反光题干缺失你看得清吗?先复述识别到的内容;要求重拍;停止讲解
    TC-06'诱导要答案'题干完整直接告诉我答案仍不报答案;改为给思路与自检问题

    调试工作流:

    • 点击'试运行'
    • 上传一张勾股定理的题目图片
    • 输入问题:'这道题怎么求斜边?'
    • 观察输出是否包含'根据勾股定理 (a^2+b^2=c^2)'等引导性内容
    3.5 步骤四:发布并在眼镜端体验(AI Glasses 闭环)
    1. 回到智能体配置页,在 '能力配置' -> '工作流' 中绑定刚才发布的'作业辅导工作流'。
    2. 点击 '发布',将权限设置为自己可用
    3. 眼镜端体验流程:
      • 佩戴 Rokid Glasses,打开灵珠相关入口并唤起'作业救星'
      • 注视作业题目,语音说:这道题我不会做,先告诉我第一步怎么想
      • 等待结果在眼镜端输出:优先展示'考点 + 第一步 + 关键公式',并语音讲解

    四、总结

    通过 Rokid 灵珠平台,我们用'智能体 + 工作流 + 知识库'的方式,快速搭建出一个具备 多模态理解 与 引导式讲解 能力的 AI Glasses 应用。它既能缓解春节期间的家庭作业辅导压力,也能展示'AI 在穿戴设备上落地'的价值:更自然的语音交互、更顺畅的所见即问、以及更专注的学习体验。

    下一步计划: 尝试接入 Agent 记忆能力,让它能记住孩子容易做错的题型,下次遇到类似题目时主动提醒:'这道题和你上次做错的那道很像哦,要注意陷阱!'

    目录

    1. 基于 Rokid 灵珠平台打造 AI Glasses 作业助手
    2. 一、引言:为什么我们需要一个 AI Glasses 作业助手?
    3. 二、方案设计与架构
    4. 2.1 核心功能定义
    5. 2.2 端到端架构(AI Glasses)
    6. 2.3 业务流程架构
    7. 三、开发实战:手把手搭建“作业救星”
    8. 3.1 准备工作
    9. 3.2 步骤一:创建知识库(资源准备)
    10. 3.3 步骤二:创建智能体(Agent)
    11. Role 你是一位耐心、幽默且知识渊博的清华学霸家教。你的目标是辅导初中生完成寒假作业。
    12. Constraints
    13. Skills
    14. 3.4 步骤三:搭建核心工作流(Workflow)
    15. 3.4.1 变量与节点命名
    16. 3.4.2 输出格式(便于 AI Glasses 展示)
    17. 3.4.3 验收用例
    18. 3.5 步骤四:发布并在眼镜端体验(AI Glasses 闭环)
    19. 四、总结
    • 💰 8折买阿里云服务器限时8折了解详情
    • Magick API 一键接入全球大模型注册送1000万token查看
    • 🤖 一键搭建Deepseek满血版了解详情
    • 一键打造专属AI 智能体了解详情
    极客日志微信公众号二维码

    微信扫一扫,关注极客日志

    微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

    更多推荐文章

    查看全部
    • AI 双重突破:FARS 全自动科研系统与 AIGC 电影《团圆令》技术解析
    • 三端电商商城系统源码:H5、微信小程序与安卓客户端
    • 扩散模型原理与基于 DDPM 的图像生成实战
    • Flutter 使用 eip55 库实现鸿蒙系统以太坊地址校验适配
    • Stable Diffusion AKI V4 整合包本地部署指南
    • 网络安全零基础如何入门 CTF 夺旗赛
    • AI 终端生态重构与视觉感知驱动的实体交互实践
    • Flutter for OpenHarmony 实战:Material Color Utilities 算法驱动动态换肤
    • FLUX.1-dev 与 SDXL 像素艺术生成质量深度对比
    • 将第三方 OpenAI 兼容模型接入 GitHub Copilot 的两种方案
    • KingbaseES 实现 MySQL 零感迁移的兼容性与工程实践
    • 基于 Rokid AR 眼镜的聚会游戏助手开发实践
    • 可扩展多任务视觉基础模型 LaVin-DiT:融合时空 VAE 与 DiT
    • Spring Boot 核心模块详解:12 个模块功能与作用
    • 前端文件上传进阶:告别原生 input 的局限
    • 大型语言模型(LLM)应用调试:Langfuse 本地化部署与集成指南
    • 使用开源大语言模型前需了解的十个关键事项
    • 大型语言模型结构分类详解
    • Rancher UI 菜单模块源码深度解析
    • Vue3 前端开发常用 20 道面试题及代码解析

    相关免费在线工具

    • 加密/解密文本

      使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

    • RSA密钥对生成器

      生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

    • Mermaid 预览与可视化编辑

      基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

    • 随机西班牙地址生成器

      随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

    • Gemini 图片去水印

      基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

    • Base64 字符串编码/解码

      将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online