Spring AI 基于 Ollama Qwen7B 和 PGVector 构建 RAG 问答系统 | 极客日志

JavaAIjava算法

Spring AI 基于 Ollama Qwen7B 和 PGVector 构建 RAG 问答系统

介绍基于 Spring AI 框架结合 Ollama 大模型与 PGVector 向量数据库构建检索增强生成（RAG）本地问答系统的实现方案。涵盖 RAG 架构原理、离线数据 ETL 流程（文档读取、拆分、向量化存储）及在线查询生成逻辑。通过 TokenTextSplitter 源码分析探讨文本分片粒度对检索效果的影响，并提供完整的 Java 服务代码示例。验证结果显示，引入外部知识库后，大模型能有效回答特定领域问题，解决了传统 LLM 幻觉及知识更新滞后问题。

1951018925发布于 2025/2/6更新于 2026/7/2148 浏览

Spring AI 基于 Ollama Qwen7B 和 PGVector 构建 RAG 问答系统

了解完嵌入模型、向量数据库相关知识后，在此基础上可以实现一个 RAG 本地问答系统。

什么 RAG？

RAG（Retrieval-Augmented Generation）检索增强生成，即大模型 LLM 在回答问题或生成文本前，会先从大量的文档中检索出相关信息，然后基于这些检索出的信息进行回答或生成文本，从而可以提高回答的质量，而不是任由 LLM 来发挥。

使用一个简单的公式来描述 RAG：RAG = 检索技术 + LLMs 提示

RAG 技术就是给大语言模型新知识，解决大模型的'AI 幻想症'、'无法获取领域知识'和数据安全性问题！！

RAG 架构

架构由离线部分和在线部分两部分组成；

离线部分：数据读取 -> 文档拆分 -> 向量化 -> 数据存储
在线部分：用户提问 -> 数据检索（召回） -> prompt 拼装 -> LLM 生成

该架构为最简单的 RAG 架构，有关论文介绍了 RAG 的演化由朴素 RAG->高级 RAG->模块化 RAG，因此简单 RAG 是后续发展的理论基石，所以先将其掌握，在后续研究高级 RAG 加入了哪些优化，如何落地的。现在先仅实现一个简单的 RAG 问答系统。

离线部分 ETL Framework

对于 ETL 主要涉及到文件的读取、拆分、写入三个部分，将详细看下实现源码：

文件读取 DocumentReader

public interface DocumentReader extends Supplier<List<Document>> {
    default List<Document> read() {
       return get();
    }
}

实现类：

JsonReader：读取解析 Json 格式的文档
TextReader：读取解析纯文本格式的文件
TikaDocumentReader：从多种文档格式读取解析数据，包括像 PDF, DOC/DOCX, PPT/PPTX 和 HTML。底层使用 Apache tika 技术实现。
PagePdfDocumentReader：以页的方式读取解析 PDF 文件，底层依赖 PdfBox 实现。
ParagraphPdfDocumentReader：以段落的方式读取解析 PDF 文件，根据 TOC 目录结构。注意：并不是所有的 PDF 文件都包含 PDF catalog。

文件拆分 DocumentTransformer

public interface DocumentTransformer extends Function<List<Document>, List<Document>> {
    default List<Document> transform(List<Document> transform) {
        return (List)this.apply(transform);
    }
}

其有 4 个实现类型，根据多种策略实现不同的类；

相关免费在线工具

Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online
JavaScript 压缩与混淆
Terser 压缩、变量名混淆，或 javascript-obfuscator 高强度混淆（体积会增大）。在线工具，JavaScript 压缩与混淆在线工具，online
加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online

public class TokenTextSplitter extends TextSplitter {

    private final EncodingRegistry registry = Encodings.newLazyEncodingRegistry();
    private final Encoding encoding = registry.getEncoding(EncodingType.CL100K_BASE);

    // The target size of each text chunk in tokens
    // 生成每个块的大小，比如一段文本总的 tokens 为 1600，此时 defaultChunkSize=800，
    // 那么就将 text 的 tokens 拆分成为两个
    private int defaultChunkSize = 800;

    // The minimum size of each text chunk in characters
    // 拆分后的文本块的最小字符数
    private int minChunkSizeChars = 350;

    // Discard chunks shorter than this
    // 丢弃块的最短长度，这个指的是字符，
    // 如果字符长度小于该值，则不再嵌入处理直接丢弃
    private int minChunkLengthToEmbed = 5;

    // The maximum number of chunks to generate from a text
    // 一个文本最多生成的块的最大数量
    private int maxNumChunks = 10000;
   
   // 是否保留分割符，如果值为 true，会执行 chunkText.trim()
    private boolean keepSeparator = true;

    public TokenTextSplitter() {
    }
}

<dependency>
    <groupId>com.knuddels</groupId>
    <artifactId>jtokkit</artifactId>
    <version>1.0.0</version>
</dependency>

public interface DocumentWriter extends Consumer<List<Document>> {
    default void write(List<Document> documents) {
       accept(documents);
    }
}

package org.ivy.service;

import lombok.RequiredArgsConstructor;
import org.springframework.ai.document.Document;
import org.springframework.ai.document.DocumentTransformer;
import org.springframework.ai.reader.tika.TikaDocumentReader;
import org.springframework.ai.vectorstore.VectorStore;
import org.springframework.core.io.Resource;
import org.springframework.stereotype.Service;
import org.springframework.web.multipart.MultipartFile;

import java.util.List;

@Service
@RequiredArgsConstructor
public class OfflineService {

    private final VectorStore vectorStore;
    private final DocumentTransformer transformer;

    /**
     * 上传文件，并拆分文档，向量化到数据库
     *
     * @param file 文件
     * @return 上传结果
     */
    public String upload(MultipartFile file) {
        Resource resource = file.getResource();
        TikaDocumentReader reader = new TikaDocumentReader(resource);
        // 读取文档
        List<Document> documents = reader.get();
        // 拆分文档
        List<Document> transform = transformer.transform(documents);
        // 向量化到数据库
        vectorStore.accept(transform);
        return "ok";
    }
}

public class SearchRequest {
    // 相似度查询阈值，默认为 0.0，为提高相似度准确性，可以提高此值
    public static final double SIMILARITY_THRESHOLD_ACCEPT_ALL = 0.0;
    // 相似度前 k 个
    public static final int DEFAULT_TOP_K = 4;
    // 查询内容
    public String query;
    // 返回 topK 个文档
    private int topK = DEFAULT_TOP_K;
    // 相似度阈值，默认为 0.0
    private double similarityThreshold = SIMILARITY_THRESHOLD_ACCEPT_ALL;
    // 过滤条件，根据元数据进行过滤，可以辅助精确检索
    private Filter.Expression filterExpression;
    }

package org.ivy.service;

import jakarta.annotation.Resource;
import org.springframework.ai.chat.client.ChatClient;
import org.springframework.ai.chat.prompt.Prompt;
import org.springframework.ai.chat.prompt.SystemPromptTemplate;
import org.springframework.ai.document.Document;
import org.springframework.ai.ollama.OllamaChatModel;
import org.springframework.ai.vectorstore.SearchRequest;
import org.springframework.ai.vectorstore.VectorStore;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.stereotype.Service;
import reactor.core.publisher.Flux;

import java.util.List;
import java.util.Map;

@Service
public class OnlineService {
    @Value("classpath:rag.st")
    private org.springframework.core.io.Resource ragTemplate;
    @Resource
    private OllamaChatModel chatModel;
    @Resource
    private VectorStore vectorStore;

    public Flux<String> simple(String prompt) {
        ChatClient client = ChatClient.builder(chatModel).build();
        return client.prompt()
                .user(prompt)
                .stream()
                .content();

    }

    public Flux<String> rag(String prompt) {
        // 检索
        SearchRequest searchRequest = SearchRequest.query(prompt);
        List<Document> documents = vectorStore.similaritySearch(searchRequest);
        // 提示词生成
        List<String> context = documents.stream().map(Document::getContent).toList();
        SystemPromptTemplate promptTemplate = new SystemPromptTemplate(ragTemplate);
        Prompt p = promptTemplate.create(Map.of("context", context, "question", prompt));
        ChatClient chatClient = ChatClient.builder(chatModel).build();
        // 大模型生成内容
        return chatClient.prompt(p).stream().content();
    }
}

Spring AI 基于 Ollama Qwen7B 和 PGVector 构建 RAG 问答系统

什么 RAG？

RAG 架构

离线部分 ETL Framework

文件读取 DocumentReader

文件拆分 DocumentTransformer

更多推荐文章

相关免费在线工具

分析一下 TokenTextSplitter 源码

TokenTextSplitter 底层使用技术

文件写入 DocumentWriter

简单的 RAG 系统的实现

离线部分

在线部分

验证效果

更多推荐文章

相关免费在线工具

Spring AI 基于 Ollama Qwen7B 和 PGVector 构建 RAG 问答系统

什么 RAG？

RAG 架构

离线部分 ETL Framework

文件读取 DocumentReader

文件拆分 DocumentTransformer

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

分析一下 TokenTextSplitter 源码

TokenTextSplitter 底层使用技术

文件写入 DocumentWriter

简单的 RAG 系统的实现

离线部分

在线部分

验证效果

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具