大模型应用在生活助手、办公等领域应用褒贬不一,教育应用则出现契机。
闫妍是一名公司白领,她工作时用多个大模型写过文案,结果差强人意。生成的内容虽然结构完整、条理清晰,但文字缺乏雕饰,过于空洞,引用的案例、名人名言也经常出现错误。不过,工作之余,闫妍却已是另一个大模型应用——口语陪练的深度用户。她主要为了练习英语口语,所以机器生成的内容倒是其次,即便尬聊,学习的目的也达到了。而实际情况是,人机对话十分顺滑,机器可以顺着闫妍的话题,把对话一步步引向深入。
7 月 26 日,教育科技公司网易有道发布了国内首个教育领域垂直大模型'子曰',以及六个基于'子曰'大模型的应用,其中包括此前已亮相的虚拟人口语教练。此前,科大讯飞已发布星火语伴 App。
虚拟人口语陪练产品集成了大模型、虚拟人、语言识别和合成、口语测评等技术,虽然应用场景限于口语、翻译、作文等领域,但俨然已是虚拟教师的雏形。能够自动生成教育资源和教学行为的虚拟教师,将对教育行业带来颠覆性影响。但同时,教育大模型应用更应注重伦理风险,尤其是自动生成答案导致学生惰性,以及通用大模型一本正经地胡说八道问题。
教育大模型应用落地
国内首个教育领域垂直大模型,都能做些什么?
网易有道一口气发布了六个应用,包括 LLM 翻译、虚拟人口语教练、AI 作文指导、语法精讲、AI Box 以及文档问答。可以发现,'子曰'大模型的应用主要围绕自然语言处理这个大模型目前最具优势的领域展开。
网易有道 CEO 周枫说,大模型给教育带来的最大机会是助力因材施教,首先是因为大模型能够助力个性化的分析和指导。大模型具有强大的语言理解和生成能力,能够更加深入地分析每一个学生的学情,进行定制化的反馈。
比如以前的 AI 技术只能对学生的作文进行批改,但大模型可以在学生写作之前就理解作文题目的含义,给出作文结构、素材方面的建议,还可以对学生的习作进行个性化点评,包括指出问题,给出改进意见。其次是因为大模型能够实现引导式的学习。不是直接告诉学生答案,而是通过不断提问,让学生培养自主学习能力,不但学到知识,而且提升批判思维能力。
7 月 26 日发布会现场,有道词典业务负责人与虚拟人口语教练 Echo 进行了多组随机对话。Echo 能迅速理解场景和上下文,并给出反馈。她的面部表情和口型生动自然,重音、弱读、升降调等细节处理得也很到位。在对话过程中,Echo 能够像真人老师一样进行启发式对话引导。对话结束后,Echo 会从发音、语法等维度给出建议。
大模型出现以前,AI 口语陪练产品就已大规模面世。两种不同 AI 技术路线的产品有何不同?以前 AI 口语陪练产品所给出的对话,是基于提前设定的模板,AI 基于模板进行微调,给出对话内容。显然,大模型的生成能力更强,并具有了一定的推理能力。
再以翻译产品为例,网易有道从 2008 年开始推出电子翻译产品,应用的引擎经历了统计机器、神经网络、Transformer 的升级。虽然有道翻译已达到亿级月活用户的规模,但用户的需求也水涨船高,不仅要翻译的结果能被看懂,还要专业文章也能被准确翻译,甚至翻译的结果要符合用户个人的语气习惯。
大模型具备至少两项原有模型不具备的能力。首先是知识能力,大模型能够整合全学科知识,能够进行跨学科搜索和语言生成,这让它具备背景知识,而不是仅根据要翻译的文本进行翻译。其次是语言能力,能将指代、引用等语言现象翻译得更自然,甚至风格化。
今年年初开始,网易有道开始研发大模型翻译,对于要不要更换引擎,其实内部我们吵了一架。2017 年有道翻译上线神经网络引擎,六年过去产品性能提升必然进入一个平缓的过程,而大模型应用半年来,产品性能不仅超过了原有模型,还有很大的提升空间。
大部分的大模型都会免费
正是因为颠覆性的技术创新,教育大模型有广阔的商业空间。目前国内的英语口语学习市场规模高达数百亿,但免费或者低价的虚拟人口语教练很快将成为这个市场的竞争者。
教育大模型的应用还可以整合进教育硬件,科大讯飞已推出搭载大模型的 AI 学习机 T20 系列,上线了中英文作文类人批改、数学类人互动辅学、英语类人口语陪练等功能。网易有道也将推出搭载大模型的学习机、词典笔等硬件。
不过,大模型应用的算力成本极为昂贵。有道的大模型翻译目前仅支持中英文互译,尚未开发其他语言翻译。很重要的原因是大模型引擎的计算量大,比原有引擎贵 20 倍。但世界上大部分的大模型都会是免费的,因为它的边际成本非常低,复制模型其实不需要成本。
近日,脸书母公司 Meta 宣布将推出开源大型语言模型 Llama2,可免费用于研究和商业用途。大模型研发公司会从多个角度推动大模型免费、开源,比如为了增强公司影响力,或者为了构建生态,或者纯粹为了惠及公众。我们也会深度参与这样一个开放的过程。
但对于教育行业来说,现有的通用大模型无法支撑教育场景的特殊需求,所以仍需要专门的教育大模型。只不过,不是所有公司都要去建世界上最大的大模型,应用和场景才是应该及早去抓的。
大模型并不是处处带来惊喜,它在语言处理方面的成绩尚未延展到其他教育领域。据报道,近日,美国研究人员评估了 ChatGPT 模型在不同时期版本的表现能力,发现 GPT-3.5 和 GPT-4 在某些性能上正在变差,尤其是 GPT-4 求解数学问题的能力,GPT-4 在 3 月表现出的 97.6% 准确率到 6 月降至 2.4%。
这也给了教育科技公司对通用大模型弯道超车的机会。学而思就正在研发数学大模型 MathGPT,以数学领域的解题和讲题算法为核心,计划年内推出基于该自研大模型的产品级应用。
不把偷懒作为产品需求
教育大模型应用面临特殊的教育伦理风险。ChatGPT 走红以后,教育界对其应用却褒贬不一。美国纽约市教育部门 2023 年 1 月宣布,禁止全市师生在学校的网络和设备上使用 ChatGPT,澳大利亚新南威尔士州、昆士兰州、塔斯马尼亚州及西澳大利亚洲等相继出台类似措施,禁止在校内使用 ChatGPT。


