基于 SpringAI+RAG 的知识库问答机器人实现 | 极客日志

Python

基于 SpringAI+RAG 的知识库问答机器人实现

一、引言随着大语言模型的快速发展，RAG（Retrieval-Augmented Generation）技术已成为构建知识库问答系统的核心技术之一。将带领大家从零开始，使用 Spring AI 框架构建一个支持文档上传的知识库问答机器人，帮助大家深入理解 RAG 技术的核心原理和实践应用。 **1.1 什么是 RAG？** RAG（检索增强生成）是一种结合了信息检索和文本生成的技术。它的基本…

片刻发布于 2026/4/6更新于 2026/7/2117K 浏览

一、引言

随着大语言模型的快速发展，RAG（Retrieval-Augmented Generation）技术已成为构建知识库问答系统的核心技术之一。本文将带领大家从零开始，使用 Spring AI 框架构建一个支持文档上传的知识库问答机器人，帮助大家深入理解 RAG 技术的核心原理和实践应用。

1.1 什么是 RAG？

RAG（检索增强生成）是一种结合了信息检索和文本生成的技术。它的基本工作流程是：

用户提出问题
系统从知识库中检索相关信息
大语言模型基于检索到的信息生成答案

从系统设计角度，RAG 的核心作用可以被描述为：在 LLM 调用生成响应之前，由系统动态构造一个'最小且相关的知识上下文'。

请注意两个关键词：

动态：每次问题都不同，检索的知识也不同（比如用户问 A 产品时找 A 的文档，问 B 产品时找 B 的文档）
最小：只注入必要信息（比如用户问'A 产品的定价'，就只塞定价相关的片段，而非整份产品手册）

RAG 可以有效的弥补上下文窗口的先天不足：不再需要把所有知识塞进窗口，而是只在需要时'临时调取'相关部分，既避免了窗口溢出，又减少了注意力竞争。

1.2 RAG 在交互链路中的位置

接下来我们以 RAG 的经典应用场景——企业知识库为例，来看一下 RAG 在这个流程中所处的位置。

RAG 交互链路

在这个结构中，RAG 主要就是在用户提问与向 LLM 发起请求这个中间段，用于检索关联的文档构建上下文。

1.3 RAG 工作原理

我们以一张图来介绍 RAG 的工作原理，具体的 RAG 详细介绍，请参照文末引用。

RAG 工作原理

二、核心实现

2.1 项目结构概览

D05-rag-qa-bot/
├── src/main/java/com/git/hui/springai/app/
│   ├── D05Application.java # 启动类
│   ├── mvc/
│   │   ├── QaApiController.java # API 控制器
│   │   └── QaController.java # 页面控制器
│   ├── qa/QaBoltService.java # 问答服务
│   └── vectorstore/
│       ├── DocumentChunker.java # 文档分块工具
│       ├── DocumentQuantizer.java # 文档量化器
│       └── TextBasedVectorStore.java # 文本向量存储
├── src/main/resources/
│   ├── application.yml # 配置文件
│   ├── prompts/qa-prompts.pt # 提示词模板
│   └── templates/chat.html # 前端页面
└── pom.xml

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

<dependencies>
    <!-- 向量数据库 -->
    <dependency>
        <groupId>org.springframework.ai</groupId>
        <artifactId>spring-ai-advisors-vector-store</artifactId>
    </dependency>
    <!-- 文档提取，使用 apache-tika 来实现 -->
    <dependency>
        <groupId>org.springframework.ai</groupId>
        <artifactId>spring-ai-tika-document-reader</artifactId>
    </dependency>
    <!-- pdf 文档提取，实际也可以用上面的 tika 来实现 -->
    <dependency>
        <groupId>org.springframework.ai</groupId>
        <artifactId>spring-ai-pdf-document-reader</artifactId>
    </dependency>
    <dependency>
        <groupId>org.springframework.ai</groupId>
        <artifactId>spring-ai-rag</artifactId>
    </dependency>
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>
    <!-- 使用智谱大模型 -->
    <dependency>
        <groupId>org.springframework.ai</groupId>
        <artifactId>spring-ai-starter-model-zhipuai</artifactId>
    </dependency>
    <!-- 用于前端页面的支持 -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-thymeleaf</artifactId>
    </dependency>
    <!-- 中文分词，用在文档向量化 -->
    <dependency>
        <groupId>com.hankcs</groupId>
        <artifactId>hanlp</artifactId>
        <version>portable-1.8.4</version>
    </dependency>
</dependencies>

spring:
  ai:
    zhipuai:
      api-key: ${zhipuai-api-key}
      chat:
        options:
          model: GLM-4-Flash
          temperature: 0.1
  thymeleaf:
    cache: false
  servlet:
    multipart:
      max-file-size: 10MB
      max-request-size: 50MB
logging:
  level:
    org.springframework.ai.chat.client.advisor.SimpleLoggerAdvisor: debug
    org.springframework.ai.chat.client: DEBUG
server:
  port: 8080

public class TextBasedVectorStore extends AbstractObservationVectorStore {
    @Getter
    protected Map<String, SimpleVectorStoreContent> store = new ConcurrentHashMap<>();

    /**
     * 已经存储到向量库的 document，用于幂等
     */
    private Set<String> persistMd5 = new CopyOnWriteArraySet<>();

    /**
     * 添加文档到向量数据库
     *
     * @param documents
     */
    @Override
    public void doAdd(List<Document> documents) {
        if (CollectionUtils.isEmpty(documents)) {
            return;
        }
        // 创建一个新的可变列表副本
        List<Document> mutableDocuments = new ArrayList<>();
        for (Document document : documents) {
            // 过滤掉重复的文档，避免二次写入，浪费空间
            if (!persistMd5.contains((String) document.getMetadata().get("md5"))) {
                mutableDocuments.add(document);
            }
        }
        if (CollectionUtils.isEmpty(mutableDocuments)) {
            return;
        }
        // 文档分片
        List<Document> chunkers = DocumentChunker.DEFAULT_CHUNKER.chunkDocuments(mutableDocuments);
        // 存储本地向量库
        chunkers.forEach(document -> {
            float[] embedding = DocumentQuantizer.quantizeDocument(document);
            if (embedding.length == 0) {
                return;
            }
            SimpleVectorStoreContent storeContent = new SimpleVectorStoreContent(
                    document.getId(), document.getText(), document.getMetadata(), embedding
            );
            this.store.put(document.getId(), storeContent);
        });
        mutableDocuments.forEach(document -> persistMd5.add((String) document.getMetadata().get("md5")));
    }

    /**
     * 搜索向量数据库，根据相似度返回相关文档
     *
     * @param request
     * @return
     */
    @Override
    public List<Document> doSimilaritySearch(SearchRequest request) {
        Predicate<SimpleVectorStoreContent> documentFilterPredicate = this.doFilterPredicate(request);
        final float[] userQueryEmbedding = this.getUserQueryEmbedding(request.getQuery());
        return this.store.values().stream()
                .filter(documentFilterPredicate)
                .map((content) -> content.toDocument(DocumentQuantizer.calculateCosineSimilarity(userQueryEmbedding, content.getEmbedding())))
                .filter((document) -> document.getScore() >= request.getSimilarityThreshold())
                .sorted(Comparator.comparing(Document::getScore).reversed())
                .limit((long) request.getTopK())
                .toList();
    }

    private float[] getUserQueryEmbedding(String query) {
        return DocumentQuantizer.quantizeQuery(query);
    }
}

public class DocumentChunker {
    private final int maxChunkSize;
    private final int overlapSize;

    public DocumentChunker() {
        this(500, 50); // 默认值：最大块大小 500 个字符，重叠 50 个字符
    }

    public List<Document> chunkDocument(Document document) {
        String content = document.getText();
        if (content == null || content.trim().isEmpty()) {
            return List.of(document);
        }
        List<String> chunks = splitText(content);
        List<Document> chunkedDocuments = new ArrayList<>();
        for (int i = 0; i < chunks.size(); i++) {
            String chunk = chunks.get(i);
            String chunkId = document.getId() + "_chunk_" + i;
            Document chunkDoc = new Document(chunkId, chunk, new HashMap<>(document.getMetadata()));
            chunkDoc.getMetadata().put("chunk_index", i);
            chunkDoc.getMetadata().put("total_chunks", chunks.size());
            chunkDoc.getMetadata().put("original_document_id", document.getId());
            chunkedDocuments.add(chunkDoc);
        }
        return chunkedDocuments;
    }

    private List<String> splitText(String text) {
        List<String> chunks = new ArrayList<>();
        // 按多种分隔符分割，优先在语义边界处分割
        String[] sentences = text.split("(?<=。)|(?<=！)|(?<=!)|(?<=？)|(?<=\\?)|(?<=\\n\\n)");
        StringBuilder currentChunk = new StringBuilder();
        for (String sentence : sentences) {
            if (sentence.trim().isEmpty()) {
                continue; // 跳过空句子
            }
            if (currentChunk.length() + sentence.length() <= maxChunkSize) {
                // 如果当前块加上新句子不超过最大大小，就添加到当前块
                if (currentChunk.length() > 0) {
                    currentChunk.append(sentence);
                } else {
                    currentChunk.append(sentence);
                }
            } else {
                // 如果当前块为空，但是单个句子太长，需要强制分割
                if (currentChunk.length() == 0) {
                    List<String> subChunks = forceSplit(sentence, maxChunkSize);
                    for (int i = 0; i < subChunks.size(); i++) {
                        String subChunk = subChunks.get(i);
                        if (i < subChunks.size() - 1) {
                            chunks.add(subChunk);
                        } else {
                            currentChunk.append(subChunk);
                        }
                    }
                } else {
                    chunks.add(currentChunk.toString());
                    currentChunk = new StringBuilder();
                    // 添加重叠部分，如果句子长度大于重叠大小，则只取末尾部分
                    if (sentence.length() > overlapSize) {
                        String overlap = sentence.substring(Math.max(0, sentence.length() - overlapSize));
                        currentChunk.append(overlap);
                        currentChunk.append(sentence);
                    } else {
                        currentChunk.append(sentence);
                    }
                }
            }
        }
        if (currentChunk.length() > 0) {
            chunks.add(currentChunk.toString());
        }
        return chunks;
    }
}

public class DocumentQuantizer {
    private static final Segment SEGMENT = HanLP.newSegment();

    public static float[] quantizeText(String text) {
        if (text == null || text.trim().isEmpty()) {
            return new float[0];
        }
        String[] words = preprocessText(text);
        Map<String, Integer> wordFreq = countWordFrequency(words);
        // 生成固定长度的向量表示（这里使用前 128 个高频词）
        return generateFixedLengthVector(wordFreq, 128);
    }

    /**
     * 将文本转换为数值向量表示（简化版）
     * 使用 TF-IDF 的基本思想，但简化为词频统计
     *
     * @param text 输入文本
     * @return 数值向量
     */
    private static String[] preprocessText(String text) {
        List<Term> termList = SEGMENT.seg(text);
        return termList.stream()
                .filter(term -> !isStopWord(term.word)) // 过滤停用词
                .filter(term -> !term.nature.toString().startsWith("w")) // 过滤标点符号
                .map(term -> term.word.toLowerCase()) // 转换为小写
                .toArray(String[]::new);
    }

    /**
     * 生成固定长度的向量表示
     *
     * @param wordFreq 词频映射
     * @param length   向量长度
     * @return 固定长度的向量
     */
    private static float[] generateFixedLengthVector(Map<String, Integer> wordFreq, int length) {
        float[] vector = new float[length];
        // 获取频率最高的词汇
        List<Map.Entry<String, Integer>> sortedEntries = wordFreq.entrySet().stream()
                .sorted(Map.Entry.<String, Integer>comparingByValue().reversed())
                .limit(length)
                .collect(Collectors.toList());
        // 将词频填入向量
        for (int i = 0; i < Math.min(sortedEntries.size(), length); i++) {
            vector[i] = sortedEntries.get(i).getValue();
        }
        return vector;
    }

    public static double calculateCosineSimilarity(float[] vectorA, float[] vectorB) {
        if (vectorA == null || vectorB == null || vectorA.length == 0 || vectorB.length == 0) {
            return 0.0;
        }
        int minLength = Math.min(vectorA.length, vectorB.length);
        float[] adjustedA = Arrays.copyOf(vectorA, minLength);
        float[] adjustedB = Arrays.copyOf(vectorB, minLength);
        double dotProduct = 0.0;
        double normA = 0.0;
        double normB = 0.0;
        for (int i = 0; i < minLength; i++) {
            dotProduct += adjustedA[i] * adjustedB[i];
            normA += Math.pow(adjustedA[i], 2);
            normB += Math.pow(adjustedB[i], 2);
        }
        normA = Math.sqrt(normA);
        normB = Math.sqrt(normB);
        if (normA == 0 || normB == 0) {
            return 0.0;
        }
        return dotProduct / (normA * normB);
    }
}

@Bean
public VectorStore vectorStore() {
    return TextBasedVectorStore.builder().build();
}

@Bean
public VectorStore vectorStore(EmbeddingModel embeddingModel) {
    return SimpleVectorStore.builder(embeddingModel).build();
}

@Service
public class QaBoltService {
    private final ChatClient chatClient;
    private final ChatMemory chatMemory;
    private final VectorStore vectorStore;

    @Value("classpath:/prompts/qa-prompts.pt")
    private Resource boltPrompts;

    public QaBoltService(ChatClient.Builder builder, VectorStore vectorStore, ChatMemory chatMemory) {
        this.vectorStore = vectorStore;
        this.chatMemory = chatMemory;
        this.chatClient = builder.defaultAdvisors(
                new SimpleLoggerAdvisor(
                        ModelOptionsUtils::toJsonStringPrettyPrinter,
                        ModelOptionsUtils::toJsonStringPrettyPrinter,
                        0
                ), // 用于支持多轮对话
                MessageChatMemoryAdvisor.builder(chatMemory).build(), // 用于支持 RAG
                RetrievalAugmentationAdvisor.builder()
                        .queryTransformers(
                                // 使用大型语言模型重写用户查询，以便在查询目标系统时提供更好的结果。
                                RewriteQueryTransformer.builder()
                                        .chatClientBuilder(builder.build().mutate())
                                        .build()
                        )
                        .queryAugmenter(
                                // ContextualQueryAugmenter 使用来自所提供文档内容的上下文数据来增强用户查询。
                                // 默认不支持上下文为空的场景，出现之后大模型会不返回用户查询；这里调整为支持为空
                                ContextualQueryAugmenter.builder().allowEmptyContext(true).build()
                        )
                        .documentRetriever(
                                VectorStoreDocumentRetriever.builder()
                                        .similarityThreshold(0.50)
                                        .vectorStore(vectorStore)
                                        .build()
                        )
                        .build()
        ).build();
    }
}

private ProceedInfo processFiles(String chatId, Collection<MultipartFile> files) {
    StringBuilder context = new StringBuilder("\n\n");
    List<Media> mediaList = new ArrayList<>();
    files.forEach(file -> {
        try {
            var data = new ByteArrayResource(file.getBytes());
            var md5 = calculateHash(chatId, file.getBytes());
            MimeType mime = MimeType.valueOf(file.getContentType());
            if (mime.equalsTypeAndSubtype(MediaType.APPLICATION_PDF)) {
                PagePdfDocumentReader pdfReader = new PagePdfDocumentReader(
                        data,
                        PdfDocumentReaderConfig.builder()
                                .withPageTopMargin(0)
                                .withPageExtractedTextFormatter(
                                        ExtractedTextFormatter.builder()
                                                .withNumberOfTopTextLinesToDelete(0)
                                                .build()
                                )
                                .withPagesPerDocument(1)
                                .build()
                );
                List<Document> documents = pdfReader.read();
                documents.forEach(document -> {
                    document.getMetadata().put("md5", md5);
                    if (document.getMetadata().containsKey("file_name") && document.getMetadata().get("file_name") == null) {
                        document.getMetadata().put("file_name", file.getName());
                    }
                });
                vectorStore.add(documents);
                var content = String.join("\n", documents.stream().map(Document::getText).toList());
                context.append(String.format(ATTACHMENT_TEMPLATE, file.getName(), content));
            } else if ("text".equalsIgnoreCase(mime.getType())) {
                List<Document> documents = new TikaDocumentReader(data).read();
                documents.forEach(document -> document.getMetadata().put("md5", md5));
                vectorStore.add(documents);
                var content = String.join("\n", documents.stream().map(Document::getText).toList());
                context.append(String.format(ATTACHMENT_TEMPLATE, file.getName(), content));
            }
        } catch (IOException e) {
            throw new RuntimeException(e);
        }
    });
    return new ProceedInfo(context.toString(), mediaList);
}

public Flux<String> ask(String chatId, String question, Collection<MultipartFile> files) {
    processFiles(chatId, files);
    // 自定义的提示词模板，替换默认的检索参考资料的提示词模板
    // 其中 <query> 对应的是用户的提问 question
    // <question_answer_context> 对应的是增强检索的 document，即检索到的参考资料
    PromptTemplate customPromptTemplate = PromptTemplate.builder()
            .renderer(StTemplateRenderer.builder().startDelimiterToken('<').endDelimiterToken('>').build())
            .template("""
                    <query>
                    Context information is below.
                    ---------------------
                    <question_answer_context>
                    ---------------------
                    Given the context information and no prior knowledge, answer the query. Follow these rules:
                    1. If the answer is not in the context, just say that you don't know.
                    2. Avoid statements like "Based on the context..." or "The provided information...".
                    """).build();
    var qaAdvisor = QuestionAnswerAdvisor.builder(vectorStore)
            .searchRequest(SearchRequest.builder().similarityThreshold(0.5d).topK(3).build())
            .promptTemplate(customPromptTemplate)
            .build();
    var requestSpec = chatClient.prompt()
            .system(boltPrompts)
            .user(question)
            .advisors(qaAdvisor)
            .advisors(a -> a.param(ChatMemory.CONVERSATION_ID, chatId));
    return requestSpec.stream().content().map(s -> s.replaceAll("\n", "<br/>"));
}

// QaApiController - API 控制器
@RestController
@RequestMapping("/api")
public class QaApiController {
    @Autowired
    private QaBoltService qaBolt;

    @GetMapping(path = "/chat/{chatId}", produces = MediaType.TEXT_EVENT_STREAM_VALUE)
    public Flux<String> qaGet(@PathVariable("chatId") String chatId, @RequestParam("question") String question) {
        return qaBolt.ask(chatId, question, Collections.emptyList());
    }

    @PostMapping(path = "/chat/{chatId}", produces = MediaType.TEXT_EVENT_STREAM_VALUE)
    public Flux<String> qaPost(@PathVariable("chatId") String chatId, @RequestParam("question") String question, @RequestParam(value = "files", required = false) Collection<MultipartFile> files) {
        if (files == null) {
            files = Collections.emptyList();
        }
        return qaBolt.ask(chatId, question, files);
    }
}

@SpringBootApplication
public class D05Application {
    @Bean
    public VectorStore vectorStore() {
        return TextBasedVectorStore.builder().build();
    }

    public static void main(String[] args) {
        SpringApplication.run(D05Application.class, args);
        System.out.println("启动成功，前端测试访问地址：http://localhost:8080/chat");
    }
}

## 角色设定
你是一个智能问答助手，专门负责根据用户提供的文档内容进行准确的回答和信息提取。

## 核心任务
- 仔细阅读并理解用户上传的文档内容
- 基于文档中的信息回答用户的问题
- 提供准确、相关且基于文档的答案
- 当问题超出文档范围时，明确告知用户该信息未在文档中提及

## 工作流程
1. 首先分析用户上传的文档，提取关键信息
2. 理解用户提出的问题
3. 在文档中查找与问题相关的信息
4. 整合相关信息并形成结构化答案
5. 如无法从文档中找到相关信息，则说明情况

## 回答规范
- 严格基于文档内容作答，不得编造信息
- 引用文档中的具体信息时，请保持原文准确性
- 如果问题涉及多个知识点，在答案中清晰分点说明
- 对于不确定的内容，应诚实表达不确定性，而非猜测
- 保持回答简洁明了，同时确保信息完整

## 注意事项
- 不得脱离文档内容进行回答
- 遇到模糊或不明确的问题时，可以请求用户提供更详细的信息
- 如果文档中没有相关内容，必须明确告知用户
- 保持专业、礼貌的沟通态度

基于 SpringAI+RAG 的知识库问答机器人实现

一、引言

二、核心实现

更多推荐文章

相关免费在线工具

三、体验与小结

更多推荐文章

相关免费在线工具

基于 SpringAI+RAG 的知识库问答机器人实现

一、引言

二、核心实现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、体验与小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具