Spring AI系列之RAG(检索增强生成)从原理到实战指南

Spring AI系列之RAG(检索增强生成)从原理到实战指南

Spring AI系列之RAG(检索增强生成)从原理到实战指南

在LLM(大语言模型)时代,如何让AI既拥有通用能力又具备专业知识?RAG技术给出了完美答案。本文将基于Spring AI生态,深入剖析RAG的核心原理、实现细节与优化策略。

一、为什么需要RAG?

在深入了解RAG之前,我们需要先认识传统LLM的局限性:

缺陷类型具体表现RAG解决方案
知识截止模型知识有截止日期,无法获取最新信息实时检索外部知识库
幻觉问题自信地生成看似合理但实际错误的内容基于检索到的真实信息生成
上下文限制长文本处理能力有限只检索最相关的上下文片段
领域专业度通用模型缺乏垂直领域深度知识外挂专业领域知识库

比喻理解:如果将LLM比作一个"高中毕业生",那么:

  • Fine-tuning(微调) = 让他花7年时间去医学院学习,然后成为医生
  • RAG = 给他配备了一群专业主任医师作为顾问,遇到问题时先咨询专家再作答

二、RAG核心架构解析

2.1 整体工作流程

RAG的工作流程可以分为两大阶段:离线索引(Indexing)在线检索生成(Retrieval & Generation)

RAG论⽂:https://arxiv.org/pdf/2312.10997

在这里插入图片描述


中文版本:

在这里插入图片描述

详细流程说明

  1. 索引阶段(离线)
    • 文档加载:从PDF、Word、Excel等格式中提取文本
    • 文本分割(Chunking):将长文档切分为适当大小的片段
    • 向量化(Embedding):使用Embedding模型将文本转为向量
    • 存储:存入Milvus、Redis等向量数据库
  2. 检索阶段(在线)
    • 查询向量化:将用户问题转换为向量
    • 相似度匹配:在向量空间中查找最相似的Top-K个片段
    • 重排序(Reranking):(可选)对检索结果进行精排
  3. 生成阶段
    • 上下文组装:将检索到的片段作为"已知信息"注入Prompt
    • LLM推理:模型基于提供的上下文生成答案

2.2 关键技术:Embedding与相似度计算

什么是Embedding?
Embedding是将文本、图像等转换为高维向量的技术。语义相似的文本在向量空间中的距离更近。

例如,⼆维空间中的向量可以表示为 (𝑥,𝑦),即表示从原点 (0,0) 到点 (𝑥,𝑦) 的有向线段

在这里插入图片描述
  1. 将⽂本转成⼀组浮点数:每个下标 i ,对应⼀个维度
  2. 整个数组对应⼀个 n 维空间的⼀个点,即⽂本向量叫 Embeddings
  3. 向量之间可以计算距离,距离远近对应语义相似度⼤⼩
"这个多少钱" → [0.1, 0.5, -0.7, ..., 0.25] "这个什么价格" → [0.12, 0.4, -0.3, ..., 0.3] ← 距离近(语义相似) "给我报个价" → [0.15, 0.3, -0.2, ..., 0.3] ← 距离近(语义相似) "我想要这个" → [0.8, -0.1, 0.4, ..., -0.1] ← 距离远(语义不同) 
在这里插入图片描述

相似度计算方法

  1. 余弦相似度(Cosine Similarity)
    • 衡量两个向量方向的相似性,值域[-1, 1]
    • 适合文本语义匹配,不受向量长度影响
    • 公式: s i m i l a r i t y ( A , B ) = A ⋅ B ∥ A ∥ ∥ B ∥ similarity(A,B) = \frac{A \cdot B}{\|A\| \|B\|} similarity(A,B)=∥A∥∥B∥A⋅B​
  2. 欧氏距离(Euclidean Distance)
    • 衡量向量空间的实际距离
    • 公式: d ( A , B ) = ∑ i = 1 n ( a i − b i ) 2 d(A,B) = \sqrt{\sum_{i=1}^{n}(a_i - b_i)^2} d(A,B)=∑i=1n​(ai​−bi​)2​
    • 值越小越相似

具体选哪种方法?

  • 欧式距离:如果更侧重于向量的实际距离,且向量的尺度相对一致时,更适合用欧式距离

余弦相似度:更适用于比较文本、关键词向量等场景。因为这些场景向量的方向比他们的模长更重要

在这里插入图片描述

三、实战:基于Spring AI + Milvus实现RAG

3.1 环境准备

依赖配置(Maven)

<dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-starter-openai</artifactId></dependency><dependency><groupId>io.milvus</groupId><artifactId>milvus-sdk-java</artifactId><version>2.2.10</version></dependency>

配置信息

# OpenAI配置(用于Embedding和Chat) spring.ai.openai.api-key=your-api-key spring.ai.openai.embedding.api-key=your-api-key spring.ai.openai.embedding.base-url=https://api.openai-hk.com # Milvus配置 milvus.host=localhost milvus.port=19530 

3.2 核心代码实现

步骤1:创建向量集合
publicvoidcreateCollection(){List<FieldType> fieldTypes =Arrays.asList(// 主键IDFieldType.newBuilder().withName("id").withDataType(DataType.Int64).withPrimaryKey(true).withAutoID(true).build(),// 向量字段(1536维,对应text-embedding-3-small)FieldType.newBuilder().withName("feature").withDataType(DataType.FloatVector).withDimension(1536).build(),// 原始文本FieldType.newBuilder().withName("instruction").withDataType(DataType.VarChar).withMaxLength(65535).build(),// 答案内容FieldType.newBuilder().withName("output").withDataType(DataType.VarChar).withMaxLength(65535).build());CreateCollectionParam createParam =CreateCollectionParam.newBuilder().withCollectionName("springai_rag").withFieldTypes(fieldTypes).build(); client.createCollection(createParam);// 创建IVF_FLAT索引,加速检索CreateIndexParam indexParam =CreateIndexParam.newBuilder().withCollectionName("springai_rag").withFieldName("feature").withIndexType(IndexType.IVF_FLAT).withMetricType(MetricType.L2).build(); client.createIndex(indexParam);}
步骤2:数据向量化与存储
@AutowiredprivateEmbeddingModel embeddingModel;publicvoidinsertData(List<FaqItem> items){for(FaqItem item : items){// 1. 文本向量化float[] embeddings = embeddingModel.embed(item.getInstruction());// 2. 构建插入参数List<InsertParam.Field> fields =newArrayList<>(); fields.add(newInsertParam.Field("feature",Collections.singletonList(embeddings))); fields.add(newInsertParam.Field("instruction",Collections.singletonList(item.getInstruction()))); fields.add(newInsertParam.Field("output",Collections.singletonList(item.getOutput())));// 3. 插入MilvusInsertParam insertParam =InsertParam.newBuilder().withCollectionName("springai_rag").withFields(fields).build(); client.insert(insertParam);}}
步骤3:RAG检索与生成
@TestvoidragTest(){String userQuestion ="预算8000元以内,适合深度学习的笔记本电脑推荐";// 1. 向量化查询float[] queryEmbedding = embeddingModel.embed(userQuestion);// 2. 向量检索Top-3SearchParam searchParam =SearchParam.newBuilder().withCollectionName("springai_rag").withMetricType(MetricType.L2).withTopK(3).withVectors(Collections.singletonList(queryEmbedding)).withVectorFieldName("feature").withOutFields(Arrays.asList("instruction","output")).build();SearchResults results = client.search(searchParam).getData();List<RowRecord> records =newSearchResultsWrapper(results).getRowRecords();// 3. 构建上下文StringBuilder context =newStringBuilder();for(RowRecordrecord: records){ context.append("Q: ").append(record.get("instruction")).append("\n"); context.append("A: ").append(record.get("output")).append("\n\n");}// 4. 构建增强PromptString enhancedPrompt =String.format(""" # 角色设定 你是资深数码产品顾问,擅长根据用户需求推荐笔记本电脑。 请严格基于以下商品库信息回答,不要推荐库中不存在的商品。 # 商品库信息(Top-3匹配结果): %s # 用户需求: %s # 回答要求: 1. 先分析用户需求(用途、预算、性能要求) 2. 从商品库中推荐1-2款最合适的,说明理由 3. 如果商品库中没有匹配项,请明确告知"暂无符合要求的商品" 4. 最后可简要补充选购建议(非强制) """, context, userQuestion);// 5. 调用LLM生成String answer = chatClient.prompt(enhancedPrompt).call().content();System.out.println(answer);}

四、RAG优化策略与痛点解决

4.1 文本分割的艺术(Chunking Strategy)

文本分割是影响RAG效果的关键因素,常用策略对比:

分割策略实现方式优点缺点适用场景
固定字符数每N个字符切分简单高效可能切断语义对上下文连续性要求不高的场景
滑动窗口固定大小+重叠部分保留上下文衔接数据冗余,存储增加需要连贯性的长文档
递归字符按标点优先级切分(先句号→逗号→空格)保持语义完整实现复杂专业文档、论文
基于语义使用NLP模型判断语义边界最优语义保留计算成本高高精度要求的知识库

最佳实践

  • 结合文档结构(Markdown标题、PDF段落)进行分层切分
  • chunk大小建议:256-512 tokens(根据embedding模型调整)
  • 设置适当的重叠(overlap)保持上下文连贯

4.2 检索优化的进阶技巧

1. 混合检索(Hybrid Search)
结合关键词检索(BM25)和向量检索,兼顾精确匹配和语义理解:

// 伪代码示例List<Document> keywordResults =keywordSearch(query);List<Document> vectorResults =vectorSearch(query);List<Document> hybridResults =rerank(merge(keywordResults, vectorResults));

2. 重排序(Reranking)
使用专门的交叉编码器(Cross-Encoder)模型对Top-K结果进行精排:

  • 先使用向量检索召回Top-20
  • 使用重排模型计算问题与文档的相关性分数
  • 取Top-3作为最终上下文

3. 查询重写(Query Rewriting)
对用户的模糊查询进行扩展和澄清:

  • 原查询:“这个多少钱?”
  • 重写后:“iPhone 15 Pro Max 256GB 官方售价是多少?”

4.3 RAG痛点与解决方案

基于《Seven Failure Points When Engineering a Retrieval Augmented Generation System》的总结:

痛点类别具体表现解决方案
Missing Content知识库中没有答案设置兜底回复;持续扩充知识库
Missed Top Ranked正确答案未进入Top-K调整similarity阈值;引入重排序
Not in Context检索到内容但与问题无关优化文本分割;提升向量模型质量
Wrong Format需要JSON但返回了文本Prompt中明确输出格式示例;使用结构化输出
Incomplete答案只覆盖问题部分引导模型逐步思考(CoT);拆分复杂问题
Not Extracted上下文中有答案但模型未提取优化Prompt模板;增强上下文标识

五、RAG效果评估(RAGAS)

RAGAS(Retrieval-Augmented Generation Assessment)是评估RAG系统的标准框架,核心指标:

5.1 检索质量指标

  1. Context Relevancy(上下文相关性)
    • 衡量检索到的上下文与问题的相关程度
    • 计算公式:相关句子数 / 总句子数
  2. Context Recall(上下文召回率)
    • 衡量检索结果是否包含回答问题所需的所有信息
    • 基于标准答案(Ground Truth)进行判断

5.2 生成质量指标

  1. Faithfulness(忠实性)
    • 评估生成答案是否基于检索到的上下文,而非幻觉
    • 值越高,模型"编造"内容越少
  2. Answer Relevancy(答案相关性)
    • 衡量答案与问题的直接相关程度

评估数据集格式

{"question":"预算8000元以内,适合深度学习的笔记本电脑推荐","contexts":["机械革命翼龙15 Pro配备RTX4060显卡,支持CUDA加速,售价7499元","联想拯救者Y7000P 2024款搭载i7-14650HX和RTX4060,售价8499元超出预算","轻薄本不适合深度学习,缺乏独立显卡"],"answer":"推荐机械革命翼龙15 Pro,配备RTX4060显卡支持CUDA加速,价格7499元符合预算","ground_truths":["机械革命翼龙15 Pro,RTX4060,7499元"]}

六、总结与展望

RAG vs Fine-tuning 选择指南

选择RAG的场景

  • 需要实时更新的知识(如新闻、股价)
  • 数据量庞大且频繁变动
  • 需要解释性强的应用场景(可溯源到具体文档)
  • 预算有限,无法承担微调成本

选择Fine-tuning的场景

  • 需要改变模型行为风格(如特定语气、格式)
  • 领域知识非常固定且通用模型表现极差
  • 对延迟敏感(RAG需要额外检索时间)

未来趋势

  1. Agentic RAG:结合ReAct模式,让模型自主决定何时检索、检索什么
  2. 多模态RAG:支持图片、音频、视频的检索增强
  3. Graph RAG:结合知识图谱,处理复杂的多跳推理问题

参考资料

  • Spring AI官方文档
  • 《Seven Failure Points When Engineering a Retrieval Augmented Generation System》
  • Milvus向量数据库最佳实践

通过本文,你应该已经掌握了RAG技术的完整链路:从文档切分、向量化存储,到相似度检索和Prompt增强。在实际项目中,建议先从简单的关键字检索+向量混合方案开始,逐步引入重排序、查询重写等优化策略。

Read more

Flutter 组件 pair 适配鸿蒙 HarmonyOS 实战:结构化元组治理,构建轻量级双元数据模型与跨层传递架构

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 pair 适配鸿蒙 HarmonyOS 实战:结构化元组治理,构建轻量级双元数据模型与跨层传递架构 前言 在鸿蒙(OpenHarmony)生态迈向多维数据感知、涉及高频函数返回值传递、两元坐标互操作及复杂状态标识返回的背景下,如何以最轻量化的方式实现数据的“成对化”封装,已成为提升代码整洁度与系统运行效率的“工程润滑剂”。在鸿蒙设备这类强调 AOT 极致性能与低内存开销的环境下,如果应用为了简单的双元数据(如:经纬度、错误码+消息)而动态创建大量繁琐的单次使用类(POJO),由于由于对象头开销与 GC 压力,极易由于由于“类爆炸”导致内存碎片的堆积。 我们需要一种能够支持强类型泛型、具备不可变属性且无需显式类定义的元组治理方案。 pair 为 Flutter 开发者引入了源自 C++ 与 Java 标准库经典语义的“

By Ne0inhk
【MySQL数据库基础】(二)MySQL 数据库基础从入门到上手,一篇带你吃透核心知识点!

【MySQL数据库基础】(二)MySQL 数据库基础从入门到上手,一篇带你吃透核心知识点!

目录 前言 一、为什么需要数据库?文件存储的痛点全解析 二、主流数据库大盘点,MySQL 的适用场景是什么? 2.1 主流数据库特性对比 2.2 MySQL 的核心优势 三、MySQL 基础操作,从安装到数据 CRUD 手把手教 3.1 MySQL 的多平台安装方式 3.2 连接 MySQL 服务器,核心指令解析 指令参数详解 简化连接方式 连接成功的反馈 3.3 MySQL 服务器管理(Windows 平台) 3.4 服务器、数据库、表的层级关系 3.5 MySQL 核心

By Ne0inhk
掌控消息全链路(3)——RabbitMQ/Spring-AMQP高级特性详解之TTL、死信和延迟

掌控消息全链路(3)——RabbitMQ/Spring-AMQP高级特性详解之TTL、死信和延迟

🔥我的主页:九转苍翎⭐️个人专栏:《Java SE 》《Java集合框架系统精讲》《MySQL高手之路:从基础到高阶 》《计算机网络 》《Java工程师核心能力体系构建》天行健,君子以自强不息。 Java JDK版本:Oracle OpenJDK 17.0.9 SpringBoot版本:3.5.9 * Spring Web * Lombok * Spring for RabbitMQ RabbitMQ version:3.12.1 RabbitMQ实现延迟队列的插件:rabbitmq_delayed_message_exchange-3.12.0(已免费上传至我的资源) 1.TTL TTL(Time-To-Live)是RabbitMQ中控制消息或队列生命周期的机制,用于在指定时间后自动删除消息或队列,避免资源堆积消息TTL:为单条消息设置过期时间队列TTL:

By Ne0inhk
MySQL查看命令速查表

MySQL查看命令速查表

🎬 个人主页:艾莉丝努力练剑 ❄专栏传送门:《C语言》《数据结构与算法》《C/C++干货分享&学习过程记录》 《Linux操作系统编程详解》《笔试/面试常见算法:从基础到进阶》《Python干货分享》 ⭐️为天地立心,为生民立命,为往圣继绝学,为万世开太平 🎬 艾莉丝的简介: 文章目录 * 1 ~> MySQL 查看类命令大全 * 1.1 查看数据库 * 1.2 查看表 * 1.3 查看数 * 1.4 查看用户 / 权限 * 1.5 最常用组合(截图里就是这套) * 2 ~> MySQL常用核心命令速查表 * 2.1 MySQL 常用核心命令速查表 * 2.

By Ne0inhk