春节寒假作业辅导:基于 Rokid 灵珠平台打造 AI Glasses 作业助手

春节寒假作业辅导:基于 Rokid 灵珠平台打造 AI Glasses 作业助手

本文应用基于Rokid灵珠智能体/CXR SDK开发,开发指南https://forum.rokid.com/index

文章目录

一、引言:为什么我们需要一个 AI Glasses 作业助手?

春节假期本是阖家团圆的日子,但对于很多家长来说,“辅导寒假作业”往往是打破祥和气氛的导火索。面对孩子“这题怎么做”的灵魂拷问,家长们常常面临两个痛点:

  1. 知识遗忘:当年的学霸面对现在的奥数题也可能束手无策。
  2. 情绪失控:反复讲解听不懂,容易血压飙升。

传统的搜题 App 需要掏出手机、拍照、上传,不仅打断孩子思路,还容易让孩子分心玩手机。而 Rokid Glasses 的第一视角采集与实时语音交互特性,天然适合作为“随身家教”——看着题就能问,边看边讲解

本文将详细介绍如何利用 Rokid 灵珠 AI 平台 的零代码/低代码能力,快速搭建一个具备 “识题讲解、知识点回顾、错题整理”AI Glasses 应用(形态为:智能体 + 工作流,可在眼镜端使用)。

image.png

二、方案设计与架构

2.1 核心功能定义

我们希望打造一个名为 “作业救星 (Homework Savior)” 的智能体,它具备以下能力:

  • 👁️ 视觉识别:通过眼镜摄像头捕捉作业题目(支持手写体/印刷体)。
  • 🧠 深度推理:不直接给出答案,而是分析题目考察的知识点,提供分步解题思路。
  • 📚 知识挂载:针对特定学科(如初中几何、物理公式),挂载专属知识库以提高准确率。
  • 🗣️ 情感交互:以“温柔耐心的学霸哥哥/姐姐”口吻进行语音讲解,安抚孩子情绪。

2.2 端到端架构(AI Glasses)

请求

触发

卡片+语音

Rokid Glasses
语音+第一视角

灵珠智能体

工作流

多模态理解
OCR/题干提取

知识库检索
公式/定理/例题

推理生成
引导式讲解

2.3 业务流程架构

利用 Mermaid 绘制的业务流程图如下:

多模态大模型知识库 (Knowledge Base)工作流 (Workflow)灵珠 AI 平台 (Agent)用户 (Rokid Glasses)多模态大模型知识库 (Knowledge Base)工作流 (Workflow)灵珠 AI 平台 (Agent)用户 (Rokid Glasses)阶段一:视觉理解与意图识别阶段二:知识检索与推理语音指令:"这道几何题怎么做?" + 拍摄题目图片触发主工作流 (Input: Query + Image)调用视觉模型 (OCR + 题目提取)返回题目文本 & 关键几何条件检索相关公式/定理 (如"勾股定理")返回Top3相关知识片段Prompt: 结合题目+知识点,生成分步讲解思路返回结构化的讲解文本 (非直接答案)输出最终讲解内容语音播放讲解 + 屏幕显示关键公式


三、开发实战:手把手搭建“作业救星”

3.1 准备工作

  1. 准备 3 份测试题目(建议各 1 份:几何、方程、应用题),用于验证不同题型表现。
  2. 准备一份“初中数学公式/定理”材料(PDF/Markdown/网页内容均可),用于构建知识库。
  3. 确保眼镜与手机已完成基础配对/联网,并能在眼镜端打开灵珠平台相关入口。

登录 Rokid 灵珠 AI 平台:https://rizon.rokid.com/

image.png

3.2 步骤一:创建知识库(资源准备)

  1. 上传/粘贴内容并切分为适合检索的片段(建议按“定理名 + 公式 + 适用条件 + 例题提示”组织)
  2. 进行一次检索自测:输入“勾股定理”“相似三角形判定”等关键词,确认能命中对应片段。

进入左侧导航的 “资源” -> “知识库”,创建知识库:初中数学公式与定理

image.png

3.3 步骤二:创建智能体(Agent)

  1. 基本信息配置
    • 名称:作业救星
    • 简介:你的寒假作业辅导老师,只讲思路不给直接答案

人设与回复逻辑(Prompt):在对应区域输入提示词:

# Role 你是一位耐心、幽默且知识渊博的清华学霸家教。你的目标是辅导初中生完成寒假作业。 # Constraints 1. 🚫 **严禁直接给出最终答案**(如“选A”或“等于5”)。 2. ✅ 必须采用**引导式教学**:先分析题目考点,再提供第一步思路,引导学生思考下一步。 3. 🗣️ 语言风格:轻松活泼,多用鼓励性话语(如“这点很棒!”“别急,我们慢慢来”)。 4. 📐 如果涉及数学公式,请用 LaTeX 格式输出,方便眼镜端渲染(或转为自然语言描述)。 # Skills 1. 擅长识别手写体题目。 2. 能将复杂的物理/数学概念用生活中的例子类比。 

在灵珠平台首页点击 “创建智能体”

image.png

3.4 步骤三:搭建核心工作流(Workflow)

为了处理复杂的“识图+检索+推理”逻辑,我们需要使用工作流而非简单的单轮对话。

进入 “开发工作流” -> “创建工作流”

image.png

3.4.1 变量与节点命名

灵珠平台的工作流画布里,开始节点默认会提供两类输入:

  • USER_INPUT:文本输入(用户的提问/指令)
  • USER_INPUT_IMAGE:图片输入(用户当前视角拍摄的题目图)

结束节点通常输出:

  • 题干提取:负责 OCR/题面结构化
  • 知识库检索:负责从知识库召回相关定理/公式

output:工作流最终输出(返回给智能体/眼镜端展示与播报)


为了让提示词里引用变量更直观,建议把两个关键节点命名为:

  1. 节点编排(示例)
  • 开始节点(默认输入)
    • USER_INPUT(用户问题)
    • USER_INPUT_IMAGE(题目图片)
  • 题干提取(大模型/多模态)
    • 输入:USER_INPUT_IMAGE
    • Prompt:请提取图片中的题目文字;若含几何图,请用要点描述图形关系与已知条件。
  • 知识库检索
    • Query:使用 题干提取 的输出(题目文本)
    • 配置:选择我们提前创建的 初中数学公式与定理 知识库
    • Top K:设置为 3(可按效果调到 5)
  • 大模型推理节点 (LLM Generation)
    • 模型选择:选择推理能力强的模型
  • 结束节点
    • 输出变量:将大模型推理节点输出映射到 output

System Prompt:

你收到了一个学生的提问和一道题目。 题目内容:{{题干提取.output}} 参考知识点:{{知识库检索.output}} 用户问题:{{USER_INPUT}} 请结合参考知识点,为学生讲解这道题,采用引导式教学,不要给出最终答案或最终数值结果。 如果识别到的题干不完整/关键信息缺失: 先用一句话复述你识别到的题干,并告诉用户需要补充拍清楚哪些信息,然后停止输出讲解。 否则请严格按以下结构输出(每段控制简短,方便眼镜端显示与语音播报): 【考点】一句话概括 【第一步】先做什么(给出一个可执行的小步骤) 【下一步提示】给一个追问或提示,推动学生继续 【自检问题】给 1 个让学生自检的简单问题 
32732d6383efd49d3fb5fa2515c71601.jpg

3.4.2 输出格式(便于 AI Glasses 展示)

为了保证“眼镜端一眼能看懂、语音也不啰嗦”,建议把工作流最终输出固定为四段结构

【考点】相似三角形判定与比例关系 【第一步】先在图中找出两组对应角(或平行线形成的内错角),判断能否构成相似 【下一步提示】如果能判定相似,对应边成比例,这一步你准备写出哪两条边的比例? 【自检问题】你能说出“相似”的两个三角形分别是哪两个吗? 

3.4.3 验收用例

下面这张表是我自己用于“发布前验收”的最小集合。

用例题目类型画面条件用户问题示例期望输出(检查点)
TC-01几何(有图)光线正常这题第一步怎么看?能说出考点;不报答案;给出可执行第一步
TC-02方程(印刷体)光线正常帮我分析思路结构化四段;第一步是列式/移项等
TC-03应用题(文字多)题干完整先帮我提取已知条件能复述条件;提示设未知数;不直接算结果
TC-04手写体字迹清晰我卡在第二步了能追问缺失信息;或给下一步提示推动思考
TC-05模糊/反光题干缺失你看得清吗?先复述识别到的内容;要求重拍;停止讲解
TC-06“诱导要答案”题干完整直接告诉我答案仍不报答案;改为给思路与自检问题
  1. 调试工作流
    • 点击“试运行”
    • 上传一张勾股定理的题目图片
    • 输入问题:“这道题怎么求斜边?”
    • 观察输出是否包含“根据勾股定理 (a2+b2=c^2)”等引导性内容

3.5 步骤四:发布并在眼镜端体验(AI Glasses 闭环)

  1. 回到智能体配置页,在 “能力配置” -> “工作流” 中绑定刚才发布的“作业辅导工作流”。
  2. 点击 “发布”,将权限设置为自己可用
  3. 眼镜端体验流程
    • 佩戴 Rokid Glasses,打开灵珠相关入口并唤起“作业救星”
    • 注视作业题目,语音说:这道题我不会做,先告诉我第一步怎么想
    • 等待结果在眼镜端输出:优先展示“考点 + 第一步 + 关键公式”,并语音讲解

四、总结

通过 Rokid 灵珠平台,我们用“智能体 + 工作流 + 知识库”的方式,快速搭建出一个具备 多模态理解引导式讲解 能力的 AI Glasses 应用。它既能缓解春节期间的家庭作业辅导压力,也能展示“AI 在穿戴设备上落地”的价值:更自然的语音交互、更顺畅的所见即问、以及更专注的学习体验。

下一步计划
尝试接入 Agent 记忆能力,让它能记住孩子容易做错的题型,下次遇到类似题目时主动提醒:“这道题和你上次做错的那道很像哦,要注意陷阱!”

Read more

DooTask V1.4.42 焕新登场:AI智能生成工作报告,效率跃升新境界

DooTask V1.4.42 焕新登场:AI智能生成工作报告,效率跃升新境界

DooTask 1.4.42 重点内容:工作报告AI生成 DooTask 正式发布 1.4.42 版本!此次更新聚焦多维度功能提升,在工作报告管理、AI 助手交互、聊天输入体验、文本处理效率以及资料社交功能等方面均有优化,同时全面修复软件运行 Bug、深度优化整体性能,全力为用户打造高效办公环境。其中,工作报告的 AI 分析功能成为最大亮点,为用户开启高效办公全新体验。 功能革新:多维度提升办公效能 工作报告:一站式管理与AI 分析 工作报告功能迎来全面升级。用户既能轻松创建报告,又可借助模板快速生成,节省大量时间。管理方面,支持查看列表与详情,信息定位便捷。而本次更新的核心亮点——AI 一键整理与分析功能,可智能剖析报告内容,为用户提供极具价值的见解。用户还能标记报告已读/未读状态,实现一站式高效管理,极大便利了团队信息共享与工作指导。 其他功能:小优化带来新体验

【AI大模型学习日志6:深度拆解字节跳动豆包系列——国民级全模态AI的普惠化突围之路】

在上一篇AI大模型学习日志中,我们完整拆解了xAI旗下的Grok系列,它凭借X平台实时数据原生接入、反过度对齐的极客风格,在海外巨头垄断的市场中撕开了差异化突围的口子,也让我们看到了大模型赛道“长板极致化”的破局逻辑。而当我们把视线拉回国内大模型赛道,真正把“普惠化”做到极致、彻底改写国内C端AI格局的产品,必然是字节跳动旗下的豆包系列。 在豆包诞生之前,国内大模型赛道始终陷入“对标GPT堆参数、拼跑分、做企业服务”的同质化内卷,普通用户想要用上AI,要么面对高昂的付费门槛,要么要忍受有限的免费额度、复杂的操作流程,AI技术始终停留在极客圈层与企业场景,无法真正走进大众的日常生活。而豆包从诞生之日起,就跳出了这条内卷路径,以“让顶尖AI能力零门槛走进10亿中国人的日常”为核心使命,用两年多时间成长为国内月活破2亿的国民级AI产品,成为国内C端通用大模型的绝对标杆。 本文所有核心信息均以字节跳动官方技术白皮书、产品发布会、官方技术论文与开源文档为唯一基准,严格遵循系列日志的统一框架,从官方定义与核心基本面、完整发展历程、解决的行业核心痛点与落地场景、核心优势与现存不足四大维度,完整拆

主流 AI IDE 之一的 OpenCode 介绍

主流 AI IDE 之一的 OpenCode 介绍

一、OpenCode 是什么简介         OpenCode 是一款开源、免费的 AI 编程助手工具(不包含服务端大模型),支持在终端(TUI)、桌面应用和 IDE 中使用,可替代 Claude Code、Cursor 等商业工具客户端。OpenCode 是一款开源的 AI 编程智能体,它能在终端、桌面应用或主流 IDE 中帮助你理解代码库、编写功能、重构代码和修复 Bug,从而大幅提升开发效率 1。截至目前(2026年02月01号),它拥有超过 80,000 个 GitHub 星标和每月超过 150 万开发者使用,是目前最受欢迎的开源 AI 编程工具之一。 1.1 核心特点         • 100% 开源:

AI大模型核心概念解析:Token 究竟是什么?

在大模型(LLM)的世界里,token 是一个基础且重要的概念。接下来,让我们一文读懂大模型中的 token 究竟是什么。 一、token究竟是什么? 在大语言模型(LLM)中,Token 代表模型可以理解和生成的最小意义单位,是模型处理文本的基础单元。它就像是模型世界里的 “积木块”,模型通过对这些 “积木块” 的操作来理解和生成文本。根据所使用的特定标记化方案,Token 可以表示单词、单词的一部分,甚至只表示字符。 例如,对于英文文本,“apple” 可能是一个 Token,而对于中文文本,“苹果” 可能是一个 Token。但有时候,Token 并不完全等同于我们日常理解的单词或汉字,它还可能是单词的片段,比如 “playing” 可能被拆分为 “play” 和 “ing” 两个 Token。 为了让模型能够处理这些 Token,