唤醒企业沉睡的知识,元脑企智 EPAI 三步高效创建大模型 RAG
面对大量不断迭代的新知识,大模型必须'终身学习'才能满足实际应用的需求。RAG(Retrieval-augmented Generation,检索增强生成)让生成式大模型能够利用外部的知识源来增强生成能力,提高生成质量和可靠性。但企业构建知识检索系统并非易事,通常面临开发门槛高、生成内容差等难题。借助浪潮信息元脑企智 EPAI 企业大模型开发平台,企业仅需三步即可高效创建大模型 RAG,让企业内部积累的大量数据得到有效利用,唤醒企业沉睡的知识,显著提升大模型回答的准确性。
RAG:生成式大模型落地的最佳实践方案
在 AIGC 大模型落地企业应用过程中,必然会碰到的一个问题是,大模型从训练到完成部署,并不意味着抵达了开发工作的'终点'。在真实场景中,每时每刻都在产生大量数据,知识会迭代得飞快,如新学说的出现、领域知识的更新、某个定义的延展、某个指标的调整等,'终身学习'不仅适用于人类本身,对 AI 来说同样是必须具备的能力。一旦丧失这种能力,大模型会很快表现出能力的'天花板',包括产生幻觉、缺乏对生成文本的可解释性、专业领域知识理解差,以及对最新知识的了解有限等等。
针对这一问题,业界主要有两种解决途径:一种是微调(Fine Tune)来更新模型,另一种是让 AI 能够与外部世界互动,以不同的形式和方式获取知识,即大模型+RAG。
微调固然效果好,可以让模型真正的'学会'一些私域知识。但是微调也会带来几个问题:首先,由于生成模型依赖于内在知识(权重),因此模型还是无法摆脱幻觉的产生,在对理解门槛高且准确性要求严格的场景下,这是完全无法接受的。其次,模型微调并不是一个简单的工作,无论是从数据准备、算力消耗、微调效果、训练时间等各个角度来看,随时用新产生的数据来进行微调都是不现实的,且最终微调的效果也无法保证,能够做到每月更新一次都已经是很理想的状态。
相比之下,RAG 让生成式大模型能够利用外部的知识源(非模型本身的知识库)来增强模型的生成能力,减少生成内容的偏差和错误,提高生成质量和可靠性,在有效缓解模型幻觉的同时,也能够'唤醒沉睡的知识',让企业内部积累的大量数据得到有效利用。由于接入外部实时动态数据,RAG 在理论上没有知识边界的限制,且无需频繁进行模型训练,故已经成为生成式大模型行业落地最佳实践方案。
RAG 很好,但好的 RAG 不好开发
RAG 虽好,但在实际开发应用的场景中,企业构建知识检索系统并非易事,通常面临较高的开发门槛和较差的生成内容等难题。
技术门槛高,开发效率低
首先,即便技术人员编程能力扎实、深悟大模型架构原理,从海量开源方案里挑选出最合适的大模型+ RAG 组合,也需要不断的试错,定制化开发的时间成本高昂。其次,RAG 的构建包含知识文档的准备、嵌入模型(embedding model)、向量数据库、查询检索和生成回答五个基本环节,各个环节均有着极大的优化空间。如在处理企业数据时,仍需设计流程,清洗、分类、标注各类数据,保其质量达模型训练标准;检索参数配置同样如此,向量模型选取与优化若有差池,也易使模型训练失败、检索不准。而遵循效果相乘叠加的定律,90%×90%×90%×90%×90%=59%,这意味着任何一个环节优化效果不佳,将会导致最终的生成效果与最初设想相距甚远。
复杂文档解析能力不足,生成效果差
企业数据文档种类繁杂,高质量的文档解析能力会极大影响最终的知识检索成效。以金融机构为例,合同、报告、Excel 财务数据表及 PPT 产品介绍等文档多格式并行,开源 RAG 方案对此的解析能力较差,如在合同关键条款的提取方面失准,条款解读发生偏差;进行产品比对推荐时,易导致检索参数及大模型抉择失当,推荐金融产品难以满足个性化需求,使客户对企业信任与满意度滑坡。
元脑企智 EPAI:构建大模型 RAG 仅需三步,唤醒企业沉睡的知识
针对当前企业在构建 RAG 上普遍面临的难题,浪潮信息元脑企智 EPAI(Enterprise Platform of AI)为企业发掘数据资产、'唤醒沉睡的知识'提供了强大的开发平台,文档解析、知识库构建、检索增强生成等特色功能,不仅极大提升了企业知识管理系统的构建效率,还显著增强了大模型回答的准确性。
高效的文档解析与知识库构建
元脑企智 EPAI 适配 PDF、TXT、DOCX 等多类文档格式上传解析,可深度处理文档内容,通过强大数据清洗和灵活的知识分块,帮助企业建立高质量私域知识库,并支持复杂问题、大型数据集或跨多个文档查询。
Step1 创建知识库,奠定知识基石
首先,用户需要在元脑企智 EPAI 上创建一个知识库并上传企业文档。元脑企智 EPAI 支持多种文档格式,包括 PDF、TXT、DOCX 等。然后选配解析参数,如编码模型、文本分块长度等。开始文档解析。文档解析是将文档的内容进行抽取并对其进行分块,元脑企智 EPAI 在解析中支持文档版式识别,对表格、图片的文字都能做到精准提取。







