引言
近期,OpenAI 连续发布多项新功能,其中 ChatGPT 搜索功能的全面开放标志着搜索增强大模型(Search-Enhanced LLM)的重要性日益凸显。与 o1、ChatGPT Vision 等功能同等待遇的安排,说明其具有战略意义。
ChatGPT 的外部搜索能力使其不再局限于预训练数据,而是可以实时访问和检索互联网的最新信息。这是典型的知识增强大模型应用,通过外部知识的注入扩展大模型的能力,让其在回答问题时提供更为精准和及时的答案,特别是涉及最近事件、新闻或需要快速更新的信息场景。
在这种增强功能下,ChatGPT 可以利用外部搜索引擎或数据库来查找实时数据。例如,询问当前新闻事件时,系统会通过搜索互联网提供答案,而非仅依赖已有训练数据。尽管大语言模型在许多任务中表现卓越,但在领域知识的准确性、及时性等方面仍存在局限性。搜索增强能力有助于提升大模型在实际应用中的准确性和时效性,特别是在专业或动态知识应用上。
应用架构的设计原则
集大成,避幻觉
应用架构的设计应强调集成性,避免单一模块主导全局,从而减少幻觉(Hallucination)现象的发生。大模型负责基础理解,知识图谱、向量检索和搜索引擎负责结构化知识补充。多模块协同架构如同一个多层次的生态系统,稳健而高效。
架构灵活,覆盖多场景
灵活性是知识增强大语言模型的核心特征。架构应适配不同的行业场景需求,从内容生成到知识问答,从智能搜索到业务推荐。通过模块化设计,用户可以根据场景选择不同的功能组合,从而提升系统的泛化能力与适配性。
工欲善其事,必先利其器
实现高效的知识增强大语言模型离不开先进工具的支撑。向量检索、知识图谱和搜索引擎的引入,使得系统能够进行深度的语义理解与快速响应。
知识增强大模型应用系统架构概览
知识增强大语言模型应用架构的核心思想是将外部知识以结构化或非结构化的形式注入大模型中,弥补模型自身知识的不足,这类似于人类学习过程中的'查阅资料'。从架构上,知识增强大模型应用系统通常将大模型作为通用知识处理的基础设施,同时结合文档搜索、数据库检索和知识图谱来注入高精度、领域化的知识内容。
知识增强这种增强方式,通过检索相关信息来辅助理解和推理。具体而言,知识增强旨在解决以下几个关键问题:
- 实时信息更新:通过搜索外部资源,大模型可以访问最新的内容,包括新闻、学术研究、市场动态等。
- 回答精准度提高:不再局限于预训练时的信息,能够获取更全面、详细的答案。
- 专业领域适应性:专业知识在预训练时过于稀疏,导致在实际应用中对越专业的知识表现的效果越差,而实际应用中,越专业的知识则价值越大。知识增强大模型应用能够有效跨越二者的鸿沟,实现高价值的应用。
- 生成内容的可解释性:使模型的推理过程更加透明和可理解。
知识来源与整合
公开知识
如公共数据集、开放领域的研究文献等。此部分主要是在预训练阶段被大模型所吸收,同时也可以通过通用搜索引擎(如百度、谷歌、Bing 等)获取,通过提示上下文输入给大模型。
私有知识
利用小模型、或 LoRA 技术训练,或者通过企业级搜索引擎、知识图谱等来为系统注入企业专属的领域知识。私有知识的注入可通过知识图谱构建、文档管理和专家经验积累等途径实现。
关键模块设计
该架构由以下核心模块组成:
- 数据管理:负责数据的采集、导入、文档管理和数据源管理。高质量的数据是模型学习和知识库构建的关键。例如,从维基百科、专业领域数据库以及网络爬虫等渠道收集数据,并进行清洗、去重和格式转换。
- 标注管理:包括数据集管理、语言和视觉标注、针对 SFT 和 RLHF 不同目标的样本标注、以及标注任务管理等。标注的质量直接影响模型的训练效果。例如,使用人工或半自动化的方式对文本进行实体识别、关系抽取和情感分析等标注。
- 模型管理:负责商业模型对接、开源模型支持、指令微调和大模型评估。选择合适的基座模型并进行针对性的微调是知识增强的重要步骤。例如,使用预训练的 LLaMA 或 Qwen 或 Deepseek 等模型,并在需要的时候能够根据特定任务进行微调。提供对商业模型和开源模型的接入支持,结合模型评估技术,来进行模型选择。
- 提示工程:负责 Prompt 管理、Prompt 优化、Prompt 推荐、少样本学习和样本自动生成。精心设计的 Prompt 能够有效地引导模型利用外部知识。例如,在 Prompt 中加入关键词或上下文信息,以提示模型检索相关的知识。针对模型的输入优化,包含 Prompt 生成、推荐及小样本学习(Few-shot Learning)等方法。
- :即知识图谱模式设计,根据专业领域或特定任务的需求设计合理的知识图谱模式,并构建出企业内部的知识体系等。通过实体类型定义、关系建模与属性定义实现领域知识的图谱化构建。


