春节寒假作业辅导:基于 Rokid 灵珠平台打造 AI Glasses 作业助手

春节寒假作业辅导:基于 Rokid 灵珠平台打造 AI Glasses 作业助手

本文应用基于Rokid灵珠智能体/CXR SDK开发,开发指南https://forum.rokid.com/index

文章目录

一、引言:为什么我们需要一个 AI Glasses 作业助手?

春节假期本是阖家团圆的日子,但对于很多家长来说,“辅导寒假作业”往往是打破祥和气氛的导火索。面对孩子“这题怎么做”的灵魂拷问,家长们常常面临两个痛点:

  1. 知识遗忘:当年的学霸面对现在的奥数题也可能束手无策。
  2. 情绪失控:反复讲解听不懂,容易血压飙升。

传统的搜题 App 需要掏出手机、拍照、上传,不仅打断孩子思路,还容易让孩子分心玩手机。而 Rokid Glasses 的第一视角采集与实时语音交互特性,天然适合作为“随身家教”——看着题就能问,边看边讲解

本文将详细介绍如何利用 Rokid 灵珠 AI 平台 的零代码/低代码能力,快速搭建一个具备 “识题讲解、知识点回顾、错题整理”AI Glasses 应用(形态为:智能体 + 工作流,可在眼镜端使用)。

image.png

二、方案设计与架构

2.1 核心功能定义

我们希望打造一个名为 “作业救星 (Homework Savior)” 的智能体,它具备以下能力:

  • 👁️ 视觉识别:通过眼镜摄像头捕捉作业题目(支持手写体/印刷体)。
  • 🧠 深度推理:不直接给出答案,而是分析题目考察的知识点,提供分步解题思路。
  • 📚 知识挂载:针对特定学科(如初中几何、物理公式),挂载专属知识库以提高准确率。
  • 🗣️ 情感交互:以“温柔耐心的学霸哥哥/姐姐”口吻进行语音讲解,安抚孩子情绪。

2.2 端到端架构(AI Glasses)

请求

触发

卡片+语音

Rokid Glasses
语音+第一视角

灵珠智能体

工作流

多模态理解
OCR/题干提取

知识库检索
公式/定理/例题

推理生成
引导式讲解

2.3 业务流程架构

利用 Mermaid 绘制的业务流程图如下:

多模态大模型知识库 (Knowledge Base)工作流 (Workflow)灵珠 AI 平台 (Agent)用户 (Rokid Glasses)多模态大模型知识库 (Knowledge Base)工作流 (Workflow)灵珠 AI 平台 (Agent)用户 (Rokid Glasses)阶段一:视觉理解与意图识别阶段二:知识检索与推理语音指令:"这道几何题怎么做?" + 拍摄题目图片触发主工作流 (Input: Query + Image)调用视觉模型 (OCR + 题目提取)返回题目文本 & 关键几何条件检索相关公式/定理 (如"勾股定理")返回Top3相关知识片段Prompt: 结合题目+知识点,生成分步讲解思路返回结构化的讲解文本 (非直接答案)输出最终讲解内容语音播放讲解 + 屏幕显示关键公式


三、开发实战:手把手搭建“作业救星”

3.1 准备工作

  1. 准备 3 份测试题目(建议各 1 份:几何、方程、应用题),用于验证不同题型表现。
  2. 准备一份“初中数学公式/定理”材料(PDF/Markdown/网页内容均可),用于构建知识库。
  3. 确保眼镜与手机已完成基础配对/联网,并能在眼镜端打开灵珠平台相关入口。

登录 Rokid 灵珠 AI 平台:https://rizon.rokid.com/

image.png

3.2 步骤一:创建知识库(资源准备)

  1. 上传/粘贴内容并切分为适合检索的片段(建议按“定理名 + 公式 + 适用条件 + 例题提示”组织)
  2. 进行一次检索自测:输入“勾股定理”“相似三角形判定”等关键词,确认能命中对应片段。

进入左侧导航的 “资源” -> “知识库”,创建知识库:初中数学公式与定理

image.png

3.3 步骤二:创建智能体(Agent)

  1. 基本信息配置
    • 名称:作业救星
    • 简介:你的寒假作业辅导老师,只讲思路不给直接答案

人设与回复逻辑(Prompt):在对应区域输入提示词:

# Role 你是一位耐心、幽默且知识渊博的清华学霸家教。你的目标是辅导初中生完成寒假作业。 # Constraints 1. 🚫 **严禁直接给出最终答案**(如“选A”或“等于5”)。 2. ✅ 必须采用**引导式教学**:先分析题目考点,再提供第一步思路,引导学生思考下一步。 3. 🗣️ 语言风格:轻松活泼,多用鼓励性话语(如“这点很棒!”“别急,我们慢慢来”)。 4. 📐 如果涉及数学公式,请用 LaTeX 格式输出,方便眼镜端渲染(或转为自然语言描述)。 # Skills 1. 擅长识别手写体题目。 2. 能将复杂的物理/数学概念用生活中的例子类比。 

在灵珠平台首页点击 “创建智能体”

image.png

3.4 步骤三:搭建核心工作流(Workflow)

为了处理复杂的“识图+检索+推理”逻辑,我们需要使用工作流而非简单的单轮对话。

进入 “开发工作流” -> “创建工作流”

image.png

3.4.1 变量与节点命名

灵珠平台的工作流画布里,开始节点默认会提供两类输入:

  • USER_INPUT:文本输入(用户的提问/指令)
  • USER_INPUT_IMAGE:图片输入(用户当前视角拍摄的题目图)

结束节点通常输出:

  • 题干提取:负责 OCR/题面结构化
  • 知识库检索:负责从知识库召回相关定理/公式

output:工作流最终输出(返回给智能体/眼镜端展示与播报)


为了让提示词里引用变量更直观,建议把两个关键节点命名为:

  1. 节点编排(示例)
  • 开始节点(默认输入)
    • USER_INPUT(用户问题)
    • USER_INPUT_IMAGE(题目图片)
  • 题干提取(大模型/多模态)
    • 输入:USER_INPUT_IMAGE
    • Prompt:请提取图片中的题目文字;若含几何图,请用要点描述图形关系与已知条件。
  • 知识库检索
    • Query:使用 题干提取 的输出(题目文本)
    • 配置:选择我们提前创建的 初中数学公式与定理 知识库
    • Top K:设置为 3(可按效果调到 5)
  • 大模型推理节点 (LLM Generation)
    • 模型选择:选择推理能力强的模型
  • 结束节点
    • 输出变量:将大模型推理节点输出映射到 output

System Prompt:

你收到了一个学生的提问和一道题目。 题目内容:{{题干提取.output}} 参考知识点:{{知识库检索.output}} 用户问题:{{USER_INPUT}} 请结合参考知识点,为学生讲解这道题,采用引导式教学,不要给出最终答案或最终数值结果。 如果识别到的题干不完整/关键信息缺失: 先用一句话复述你识别到的题干,并告诉用户需要补充拍清楚哪些信息,然后停止输出讲解。 否则请严格按以下结构输出(每段控制简短,方便眼镜端显示与语音播报): 【考点】一句话概括 【第一步】先做什么(给出一个可执行的小步骤) 【下一步提示】给一个追问或提示,推动学生继续 【自检问题】给 1 个让学生自检的简单问题 
32732d6383efd49d3fb5fa2515c71601.jpg

3.4.2 输出格式(便于 AI Glasses 展示)

为了保证“眼镜端一眼能看懂、语音也不啰嗦”,建议把工作流最终输出固定为四段结构

【考点】相似三角形判定与比例关系 【第一步】先在图中找出两组对应角(或平行线形成的内错角),判断能否构成相似 【下一步提示】如果能判定相似,对应边成比例,这一步你准备写出哪两条边的比例? 【自检问题】你能说出“相似”的两个三角形分别是哪两个吗? 

3.4.3 验收用例

下面这张表是我自己用于“发布前验收”的最小集合。

用例题目类型画面条件用户问题示例期望输出(检查点)
TC-01几何(有图)光线正常这题第一步怎么看?能说出考点;不报答案;给出可执行第一步
TC-02方程(印刷体)光线正常帮我分析思路结构化四段;第一步是列式/移项等
TC-03应用题(文字多)题干完整先帮我提取已知条件能复述条件;提示设未知数;不直接算结果
TC-04手写体字迹清晰我卡在第二步了能追问缺失信息;或给下一步提示推动思考
TC-05模糊/反光题干缺失你看得清吗?先复述识别到的内容;要求重拍;停止讲解
TC-06“诱导要答案”题干完整直接告诉我答案仍不报答案;改为给思路与自检问题
  1. 调试工作流
    • 点击“试运行”
    • 上传一张勾股定理的题目图片
    • 输入问题:“这道题怎么求斜边?”
    • 观察输出是否包含“根据勾股定理 (a2+b2=c^2)”等引导性内容

3.5 步骤四:发布并在眼镜端体验(AI Glasses 闭环)

  1. 回到智能体配置页,在 “能力配置” -> “工作流” 中绑定刚才发布的“作业辅导工作流”。
  2. 点击 “发布”,将权限设置为自己可用
  3. 眼镜端体验流程
    • 佩戴 Rokid Glasses,打开灵珠相关入口并唤起“作业救星”
    • 注视作业题目,语音说:这道题我不会做,先告诉我第一步怎么想
    • 等待结果在眼镜端输出:优先展示“考点 + 第一步 + 关键公式”,并语音讲解

四、总结

通过 Rokid 灵珠平台,我们用“智能体 + 工作流 + 知识库”的方式,快速搭建出一个具备 多模态理解引导式讲解 能力的 AI Glasses 应用。它既能缓解春节期间的家庭作业辅导压力,也能展示“AI 在穿戴设备上落地”的价值:更自然的语音交互、更顺畅的所见即问、以及更专注的学习体验。

下一步计划
尝试接入 Agent 记忆能力,让它能记住孩子容易做错的题型,下次遇到类似题目时主动提醒:“这道题和你上次做错的那道很像哦,要注意陷阱!”

Read more

2026年4款会议纪要工具深度测评:告别手动整理,AI帮你做纪要

2026年4款会议纪要工具深度测评:告别手动整理,AI帮你做纪要

作为一名混迹职场多年的效率工具控,我最怕的不是开会,而是会后的“填坑”环节——整理会议纪要。对着几个小时的录音反复听、暂停、打字,不仅枯燥,还容易漏掉关键信息。 好在2026年的今天,AI语音转写工具已经卷出了新高度。为了帮大家(也帮我自己)找到那个能真正“解放双手”的神器,我深度体验了市面上热门的4款会议纪要工具。今天就来做个盘点,看看谁才是你的得力助手。 No.1 随身鹿:全能型职场效率神器 * 推荐指数:★★★★★ * 综合评分:9.8/10 * 平台支持:iOS / Android / macOS / iPad / HarmonyOS * 核心定位:综合评分最高、性价比首选 核心优势 在测试了多款工具后,随身鹿给我的感觉最“稳”。它不仅仅是把声音转成文字,更像是一个懂业务的会议秘书。 1. AI纪要模板丰富度No.1:这是我最喜欢的一点。它不是简单地把文字堆在一起,

GPT-5-Codex来了:AI程序员正式进入“独立干活”时代

GPT-5-Codex来了:AI程序员正式进入“独立干活”时代

本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续! * 🚀 魔都架构师 | 全网30W技术追随者 * 🔧 大厂分布式系统/数据中台实战专家 * 🏆 主导交易系统百万级流量调优 & 车联网平台架构 * 🧠 AIGC应用开发先行者 | 区块链落地实践者 * 🌍 以技术驱动创新,我们的征途是改变世界! * 👉 实战干货:编程严选网 Codex 现在运行更高效、性能更稳定,实时协作与独立任务处理能力显著提升,无论是在终端、IDE、网页,还是在手机上进行开发,均能随时使用。 2025 年 9 月 23 日更新: GPT-5-Codex 现已向使用 API key 的 Codex 开发者开放(除了已通过 ChatGPT 订阅使用 Codex 的开发者)。GPT-5 Codex 的定价与 GPT-5 相同,并且仅在

OpenClaw&Discord 多 Agent 多频道配置实战:从零搭建你的 AI 团队(附踩坑实录)

OpenClaw&Discord 多 Agent 多频道配置实战:从零搭建你的 AI 团队(附踩坑实录)

本文记录了我从零开始配置 OpenClaw 多 Agent 多 Discord 频道的完整过程,基于最新的 OpenClaw 2026.2.22-2 版本,包含实际配置文件和踩坑实录。 一、背景与需求 1.1 为什么要多 Agent? 当 AI Agent 的应用场景越来越丰富时,单一 Agent 很难同时胜任多种专业任务: * 编程任务需要代码能力和技术深度 * 内容创作需要写作技巧和文案感觉 * 健康管理需要健身知识和营养学背景 * 投资分析需要金融市场理解和数据敏感性 让每个 Agent 专注一个领域,比让一个 Agent 什么都懂但什么都不精要好得多。 1.2 为什么要多 Discord 频道? 在 Discord 场景中,不同的频道有不同的氛围和用途: 频道用途对应 Agent#🎯-指挥台主沟通入口,任务分发Cypher

AI全链路赋能:smardaten2.0实现软件开发全流程智能化突破

AI全链路赋能:smardaten2.0实现软件开发全流程智能化突破

一、引言:AI重构软件开发范式 2025年,生成式AI已深度渗透到软件开发生命周期的各个环节,带来了前所未有的变革。GitHub Copilot等代码生成工具日均生成代码超4000万行(2024年统计),Figma AI原型设计工具的用户增长更是达到了惊人的300%。 表面看似发展蓬勃,然而当前AI在软件开发中的应用却呈现出“工具孤岛”现象,例如需求阶段的Prompt生成、开发阶段的代码补全、测试阶段的用例生成等能力相互割裂,难以满足企业级DevOps流程的贯通需求。这种割裂状态限制了AI在软件开发中发挥更大的价值,也给企业带来了新的挑战。 本文将通过分析生成式AI应用现状和全生命周期协同路径,给企业级开发带来全新思路。 二、生成式AI应用现状分析 创新场景突破 1、需求可视化革命 AI原型工具实现了从“文本→高保真UI”的转化,如MidJourney for Design等工具,极大地简化了需求可视化的过程。某电商平台的实测数据显示,需求验证周期从原来的2周缩短至48小时,显著提高了需求阶段的效率和准确性。 这种快速的需求可视化能力,使得产品经理能够更直观地展示需求,设计师